{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565\n",
      "\u001b[32m2024-06-24 17:42:29.742\u001b[0m | \u001b[1mINFO    \u001b[0m | \u001b[36m__main__\u001b[0m:\u001b[36m<module>\u001b[0m:\u001b[36m50\u001b[0m - \u001b[1mDataset({\n",
      "    features: ['text'],\n",
      "    num_rows: 10001\n",
      "})\u001b[0m\n",
      "\u001b[32m2024-06-24 17:42:29.743\u001b[0m | \u001b[1mINFO    \u001b[0m | \u001b[36m__main__\u001b[0m:\u001b[36m<module>\u001b[0m:\u001b[36m51\u001b[0m - \u001b[1mDataset({\n",
      "    features: ['text'],\n",
      "    num_rows: 1100\n",
      "})\u001b[0m\n"
     ]
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "7e39bc4d23f74993b7936dfd9be080cf",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "Map:   0%|          | 0/10001 [00:00<?, ? examples/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "f33c0f1f1d7b4e03854649fde57f9956",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "Map:   0%|          | 0/1100 [00:00<?, ? examples/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/plain": [
       "'都是[MASK]京'"
      ]
     },
     "execution_count": 1,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "import json\n",
    "from dataclasses import dataclass, field\n",
    "from typing import Optional\n",
    "import os\n",
    "import argparse\n",
    "from transformers import AutoTokenizer, BartForConditionalGeneration, Text2TextGenerationPipeline\n",
    "from transformers import HfArgumentParser, TrainingArguments, Trainer, set_seed\n",
    "from datasets import load_dataset, Dataset\n",
    "from loguru import logger\n",
    "\n",
    "# 模型选择\n",
    "# tokenizer = AutoTokenizer.from_pretrained(\"./models/bart-base-chinese-cluecorpussmall/\")\n",
    "# model = BartForConditionalGeneration.from_pretrained(\"./models/bart-base-chinese-cluecorpussmall/\")\n",
    "tokenizer = AutoTokenizer.from_pretrained(\"./models/Randeng-BART-139M/\",  use_fast=False)\n",
    "model = BartForConditionalGeneration.from_pretrained(\"./models/Randeng-BART-139M/\")\n",
    "\n",
    "class CscDataset(object):\n",
    "    def __init__(self, file_path):\n",
    "        self.data = json.load(open(file_path, 'r', encoding='utf-8'))\n",
    "\n",
    "    def load(self):\n",
    "        data_list = []\n",
    "        for item in self.data:\n",
    "            data_list.append(item['original_text'] + '\\t' + item['correct_text'])\n",
    "            if len(data_list)>10000:\n",
    "                break\n",
    "        return {'text': data_list}\n",
    "\n",
    "import torch\n",
    "def bart_correct(tokenizer, model, text: str, max_length: int = 128):\n",
    "\n",
    "    import numpy as np\n",
    "    inputs = tokenizer.encode(text, padding=True, max_length=max_length, truncation=True,\n",
    "                                return_tensors='pt')\n",
    "    model.eval()\n",
    "    with torch.no_grad():\n",
    "        res = model(inputs).logits\n",
    "        res = np.argmax(res[0],axis=1)\n",
    "        res = res[1:-1]\n",
    "        decode_tokens = tokenizer.decode(res,skip_special_tokens=True).replace(' ', '')\n",
    "    return decode_tokens\n",
    "    \n",
    "d = CscDataset(\"./csc_sample/train.json\")\n",
    "data_dict = d.load()\n",
    "train_dataset = Dataset.from_dict(data_dict, split='train')\n",
    "\n",
    "d = CscDataset(\"./csc_sample/test.json\")\n",
    "data_dict = d.load()\n",
    "valid_dataset = Dataset.from_dict(data_dict, split='test')\n",
    "logger.info(train_dataset)\n",
    "logger.info(valid_dataset)\n",
    "\n",
    "def tokenize_dataset(tokenizer, dataset, max_len):\n",
    "    def convert_to_features(example_batch):\n",
    "        src_texts = []\n",
    "        trg_texts = []\n",
    "        for example in example_batch['text']:\n",
    "            terms = example.split('\\t', 1)\n",
    "            src_texts.append(terms[0])\n",
    "            trg_texts.append(terms[1])\n",
    "        input_encodings = tokenizer.batch_encode_plus(\n",
    "            src_texts,\n",
    "            truncation=True,\n",
    "            padding='max_length',\n",
    "            max_length=max_len,\n",
    "        )\n",
    "        target_encodings = tokenizer.batch_encode_plus(\n",
    "            trg_texts,\n",
    "            truncation=True,\n",
    "            padding='max_length',\n",
    "            max_length=max_len,\n",
    "        )\n",
    "\n",
    "        encodings = {\n",
    "            'input_ids': input_encodings['input_ids'],\n",
    "            'attention_mask': input_encodings['attention_mask'],\n",
    "            'target_ids': target_encodings['input_ids'],\n",
    "            'target_attention_mask': target_encodings['attention_mask']\n",
    "        }\n",
    "\n",
    "        return encodings\n",
    "    dataset = dataset.map(convert_to_features, batched=True)\n",
    "    # Set the tensor type and the columns which the dataset should return\n",
    "    columns = ['input_ids', 'target_ids', 'attention_mask', 'target_attention_mask']\n",
    "    dataset.with_format(type='torch', columns=columns)\n",
    "    # Rename columns to the names that the forward method of the selected\n",
    "    # model expects\n",
    "    dataset = dataset.rename_column('target_ids', 'labels')\n",
    "    dataset = dataset.rename_column('target_attention_mask', 'decoder_attention_mask')\n",
    "    dataset = dataset.remove_columns(['text'])\n",
    "    return dataset\n",
    "\n",
    "train_data = tokenize_dataset(tokenizer, train_dataset,128)\n",
    "valid_data = tokenize_dataset(tokenizer, valid_dataset,128)\n",
    "bart_correct(tokenizer, model,\"中国的首都是[MASK]京\",32)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "d1b16f91d55c45fc98a3f27e2af92be4",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "  0%|          | 0/2502 [00:00<?, ?it/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "o:\\conda_envs\\env_DeepLearning_PyTorch-1.13.1\\lib\\site-packages\\transformers\\models\\bart\\modeling_bart.py:597: UserWarning: 1Torch was not compiled with flash attention. (Triggered internally at ..\\aten\\src\\ATen\\native\\transformers\\cuda\\sdp_utils.cpp:263.)\n",
      "  attn_output = torch.nn.functional.scaled_dot_product_attention(\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "{'loss': 0.1993, 'grad_norm': 1.6851266622543335, 'learning_rate': 9.992006394884094e-05, 'epoch': 0.0}\n",
      "{'loss': 0.2017, 'grad_norm': 1.3764699697494507, 'learning_rate': 9.984012789768186e-05, 'epoch': 0.0}\n",
      "{'loss': 0.1817, 'grad_norm': 1.441162347793579, 'learning_rate': 9.976019184652279e-05, 'epoch': 0.0}\n",
      "{'loss': 0.1592, 'grad_norm': 1.2615357637405396, 'learning_rate': 9.968025579536371e-05, 'epoch': 0.01}\n",
      "{'loss': 0.1661, 'grad_norm': 1.355269432067871, 'learning_rate': 9.960031974420465e-05, 'epoch': 0.01}\n",
      "{'loss': 0.1388, 'grad_norm': 1.282394289970398, 'learning_rate': 9.952038369304557e-05, 'epoch': 0.01}\n",
      "{'loss': 0.1442, 'grad_norm': 1.80318284034729, 'learning_rate': 9.944044764188649e-05, 'epoch': 0.01}\n",
      "{'loss': 0.1485, 'grad_norm': 1.307356834411621, 'learning_rate': 9.936051159072742e-05, 'epoch': 0.01}\n",
      "{'loss': 0.1308, 'grad_norm': 1.4079711437225342, 'learning_rate': 9.928057553956835e-05, 'epoch': 0.01}\n",
      "{'loss': 0.1654, 'grad_norm': 1.190934181213379, 'learning_rate': 9.920063948840927e-05, 'epoch': 0.02}\n",
      "{'loss': 0.1573, 'grad_norm': 1.0430885553359985, 'learning_rate': 9.912070343725021e-05, 'epoch': 0.02}\n",
      "{'loss': 0.0981, 'grad_norm': 1.2048022747039795, 'learning_rate': 9.904076738609113e-05, 'epoch': 0.02}\n",
      "{'loss': 0.0975, 'grad_norm': 1.1217907667160034, 'learning_rate': 9.896083133493206e-05, 'epoch': 0.02}\n",
      "{'loss': 0.0879, 'grad_norm': 1.169425368309021, 'learning_rate': 9.8880895283773e-05, 'epoch': 0.02}\n",
      "{'loss': 0.1224, 'grad_norm': 1.4600478410720825, 'learning_rate': 9.880095923261392e-05, 'epoch': 0.02}\n",
      "{'loss': 0.0828, 'grad_norm': 0.9273439645767212, 'learning_rate': 9.872102318145484e-05, 'epoch': 0.03}\n",
      "{'loss': 0.119, 'grad_norm': 1.5625617504119873, 'learning_rate': 9.864108713029577e-05, 'epoch': 0.03}\n",
      "{'loss': 0.0867, 'grad_norm': 1.1130704879760742, 'learning_rate': 9.856115107913669e-05, 'epoch': 0.03}\n",
      "{'loss': 0.095, 'grad_norm': 0.9697543978691101, 'learning_rate': 9.848121502797762e-05, 'epoch': 0.03}\n",
      "{'loss': 0.0955, 'grad_norm': 0.8310099840164185, 'learning_rate': 9.840127897681854e-05, 'epoch': 0.03}\n",
      "{'loss': 0.0901, 'grad_norm': 0.8796803951263428, 'learning_rate': 9.832134292565948e-05, 'epoch': 0.03}\n",
      "{'loss': 0.0912, 'grad_norm': 0.91612309217453, 'learning_rate': 9.824140687450041e-05, 'epoch': 0.04}\n",
      "{'loss': 0.0947, 'grad_norm': 0.9761635661125183, 'learning_rate': 9.816147082334133e-05, 'epoch': 0.04}\n",
      "{'loss': 0.1044, 'grad_norm': 0.9217323064804077, 'learning_rate': 9.808153477218226e-05, 'epoch': 0.04}\n",
      "{'loss': 0.0865, 'grad_norm': 0.9679599404335022, 'learning_rate': 9.80015987210232e-05, 'epoch': 0.04}\n",
      "{'loss': 0.0597, 'grad_norm': 0.804681122303009, 'learning_rate': 9.792166266986412e-05, 'epoch': 0.04}\n",
      "{'loss': 0.1043, 'grad_norm': 1.1109263896942139, 'learning_rate': 9.784172661870504e-05, 'epoch': 0.04}\n",
      "{'loss': 0.0861, 'grad_norm': 0.936051070690155, 'learning_rate': 9.776179056754596e-05, 'epoch': 0.04}\n",
      "{'loss': 0.084, 'grad_norm': 0.8180835843086243, 'learning_rate': 9.768185451638689e-05, 'epoch': 0.05}\n",
      "{'loss': 0.0654, 'grad_norm': 0.546363353729248, 'learning_rate': 9.760191846522783e-05, 'epoch': 0.05}\n",
      "{'loss': 0.114, 'grad_norm': 0.9408940076828003, 'learning_rate': 9.752198241406875e-05, 'epoch': 0.05}\n",
      "{'loss': 0.0807, 'grad_norm': 0.9230183362960815, 'learning_rate': 9.744204636290968e-05, 'epoch': 0.05}\n",
      "{'loss': 0.1122, 'grad_norm': 0.8896048069000244, 'learning_rate': 9.736211031175061e-05, 'epoch': 0.05}\n",
      "{'loss': 0.1035, 'grad_norm': 1.3674145936965942, 'learning_rate': 9.728217426059153e-05, 'epoch': 0.05}\n",
      "{'loss': 0.095, 'grad_norm': 1.0380468368530273, 'learning_rate': 9.720223820943247e-05, 'epoch': 0.06}\n",
      "{'loss': 0.0755, 'grad_norm': 0.9542058706283569, 'learning_rate': 9.712230215827339e-05, 'epoch': 0.06}\n",
      "{'loss': 0.1078, 'grad_norm': 1.6558667421340942, 'learning_rate': 9.704236610711431e-05, 'epoch': 0.06}\n",
      "{'loss': 0.1052, 'grad_norm': 0.7230568528175354, 'learning_rate': 9.696243005595524e-05, 'epoch': 0.06}\n",
      "{'loss': 0.0987, 'grad_norm': 1.1391007900238037, 'learning_rate': 9.688249400479616e-05, 'epoch': 0.06}\n",
      "{'loss': 0.1077, 'grad_norm': 0.7414671182632446, 'learning_rate': 9.68025579536371e-05, 'epoch': 0.06}\n",
      "{'loss': 0.0899, 'grad_norm': 0.7728562355041504, 'learning_rate': 9.672262190247802e-05, 'epoch': 0.07}\n",
      "{'loss': 0.0868, 'grad_norm': 0.680986762046814, 'learning_rate': 9.664268585131895e-05, 'epoch': 0.07}\n",
      "{'loss': 0.084, 'grad_norm': 0.7459935545921326, 'learning_rate': 9.656274980015988e-05, 'epoch': 0.07}\n",
      "{'loss': 0.0878, 'grad_norm': 0.522967517375946, 'learning_rate': 9.64828137490008e-05, 'epoch': 0.07}\n",
      "{'loss': 0.0788, 'grad_norm': 1.7345484495162964, 'learning_rate': 9.640287769784174e-05, 'epoch': 0.07}\n",
      "{'loss': 0.0958, 'grad_norm': 1.5001050233840942, 'learning_rate': 9.632294164668266e-05, 'epoch': 0.07}\n",
      "{'loss': 0.0993, 'grad_norm': 0.6735793352127075, 'learning_rate': 9.624300559552358e-05, 'epoch': 0.08}\n",
      "{'loss': 0.1221, 'grad_norm': 1.0775015354156494, 'learning_rate': 9.616306954436451e-05, 'epoch': 0.08}\n",
      "{'loss': 0.0851, 'grad_norm': 0.8321509957313538, 'learning_rate': 9.608313349320543e-05, 'epoch': 0.08}\n",
      "{'loss': 0.1094, 'grad_norm': 0.8133735656738281, 'learning_rate': 9.600319744204636e-05, 'epoch': 0.08}\n",
      "{'loss': 0.0829, 'grad_norm': 1.075882077217102, 'learning_rate': 9.59232613908873e-05, 'epoch': 0.08}\n",
      "{'loss': 0.0907, 'grad_norm': 0.7851079702377319, 'learning_rate': 9.584332533972822e-05, 'epoch': 0.08}\n",
      "{'loss': 0.0766, 'grad_norm': 0.6489449143409729, 'learning_rate': 9.576338928856915e-05, 'epoch': 0.08}\n",
      "{'loss': 0.1224, 'grad_norm': 1.0806392431259155, 'learning_rate': 9.568345323741009e-05, 'epoch': 0.09}\n",
      "{'loss': 0.0514, 'grad_norm': 0.48371464014053345, 'learning_rate': 9.5603517186251e-05, 'epoch': 0.09}\n",
      "{'loss': 0.0868, 'grad_norm': 0.9192562699317932, 'learning_rate': 9.552358113509194e-05, 'epoch': 0.09}\n",
      "{'loss': 0.0871, 'grad_norm': 0.6352230310440063, 'learning_rate': 9.544364508393286e-05, 'epoch': 0.09}\n",
      "{'loss': 0.0812, 'grad_norm': 0.6820871829986572, 'learning_rate': 9.536370903277378e-05, 'epoch': 0.09}\n",
      "{'loss': 0.109, 'grad_norm': 0.9949442148208618, 'learning_rate': 9.528377298161471e-05, 'epoch': 0.09}\n",
      "{'loss': 0.1096, 'grad_norm': 0.8288976550102234, 'learning_rate': 9.520383693045563e-05, 'epoch': 0.1}\n",
      "{'loss': 0.0957, 'grad_norm': 0.7812960147857666, 'learning_rate': 9.512390087929657e-05, 'epoch': 0.1}\n",
      "{'loss': 0.0794, 'grad_norm': 0.659170925617218, 'learning_rate': 9.50439648281375e-05, 'epoch': 0.1}\n",
      "{'loss': 0.0885, 'grad_norm': 0.681770384311676, 'learning_rate': 9.496402877697842e-05, 'epoch': 0.1}\n",
      "{'loss': 0.1228, 'grad_norm': 0.8352172374725342, 'learning_rate': 9.488409272581935e-05, 'epoch': 0.1}\n",
      "{'loss': 0.0798, 'grad_norm': 1.1201138496398926, 'learning_rate': 9.480415667466027e-05, 'epoch': 0.1}\n",
      "{'loss': 0.0954, 'grad_norm': 0.7563016414642334, 'learning_rate': 9.472422062350121e-05, 'epoch': 0.11}\n",
      "{'loss': 0.0945, 'grad_norm': 1.0783442258834839, 'learning_rate': 9.464428457234213e-05, 'epoch': 0.11}\n",
      "{'loss': 0.0551, 'grad_norm': 0.9648446440696716, 'learning_rate': 9.456434852118305e-05, 'epoch': 0.11}\n",
      "{'loss': 0.0875, 'grad_norm': 1.2965059280395508, 'learning_rate': 9.448441247002398e-05, 'epoch': 0.11}\n",
      "{'loss': 0.0863, 'grad_norm': 0.856015682220459, 'learning_rate': 9.440447641886492e-05, 'epoch': 0.11}\n",
      "{'loss': 0.0913, 'grad_norm': 0.8694154620170593, 'learning_rate': 9.432454036770584e-05, 'epoch': 0.11}\n",
      "{'loss': 0.1126, 'grad_norm': 1.22739839553833, 'learning_rate': 9.424460431654677e-05, 'epoch': 0.12}\n",
      "{'loss': 0.0804, 'grad_norm': 0.938173770904541, 'learning_rate': 9.416466826538769e-05, 'epoch': 0.12}\n",
      "{'loss': 0.0592, 'grad_norm': 0.9089321494102478, 'learning_rate': 9.408473221422862e-05, 'epoch': 0.12}\n",
      "{'loss': 0.0742, 'grad_norm': 0.7014855146408081, 'learning_rate': 9.400479616306956e-05, 'epoch': 0.12}\n",
      "{'loss': 0.0762, 'grad_norm': 0.5832679271697998, 'learning_rate': 9.392486011191048e-05, 'epoch': 0.12}\n",
      "{'loss': 0.0786, 'grad_norm': 0.5382203459739685, 'learning_rate': 9.384492406075141e-05, 'epoch': 0.12}\n",
      "{'loss': 0.0608, 'grad_norm': 0.7241602540016174, 'learning_rate': 9.376498800959233e-05, 'epoch': 0.12}\n",
      "{'loss': 0.0719, 'grad_norm': 0.6230706572532654, 'learning_rate': 9.368505195843325e-05, 'epoch': 0.13}\n",
      "{'loss': 0.1052, 'grad_norm': 0.7360279560089111, 'learning_rate': 9.360511590727418e-05, 'epoch': 0.13}\n",
      "{'loss': 0.0556, 'grad_norm': 0.49330538511276245, 'learning_rate': 9.35251798561151e-05, 'epoch': 0.13}\n",
      "{'loss': 0.0935, 'grad_norm': 0.6323468685150146, 'learning_rate': 9.344524380495604e-05, 'epoch': 0.13}\n",
      "{'loss': 0.0939, 'grad_norm': 0.8378238677978516, 'learning_rate': 9.336530775379697e-05, 'epoch': 0.13}\n",
      "{'loss': 0.0822, 'grad_norm': 0.7626652717590332, 'learning_rate': 9.328537170263789e-05, 'epoch': 0.13}\n",
      "{'loss': 0.063, 'grad_norm': 0.6451377272605896, 'learning_rate': 9.320543565147883e-05, 'epoch': 0.14}\n",
      "{'loss': 0.0918, 'grad_norm': 0.7866339087486267, 'learning_rate': 9.312549960031975e-05, 'epoch': 0.14}\n",
      "{'loss': 0.0981, 'grad_norm': 0.7917836904525757, 'learning_rate': 9.304556354916068e-05, 'epoch': 0.14}\n",
      "{'loss': 0.0683, 'grad_norm': 0.582850456237793, 'learning_rate': 9.29656274980016e-05, 'epoch': 0.14}\n",
      "{'loss': 0.0707, 'grad_norm': 0.7103149890899658, 'learning_rate': 9.288569144684252e-05, 'epoch': 0.14}\n",
      "{'loss': 0.0932, 'grad_norm': 0.8440781831741333, 'learning_rate': 9.280575539568345e-05, 'epoch': 0.14}\n",
      "{'loss': 0.0885, 'grad_norm': 1.0092337131500244, 'learning_rate': 9.272581934452439e-05, 'epoch': 0.15}\n",
      "{'loss': 0.0903, 'grad_norm': 0.7503896355628967, 'learning_rate': 9.264588329336531e-05, 'epoch': 0.15}\n",
      "{'loss': 0.0879, 'grad_norm': 0.8995282649993896, 'learning_rate': 9.256594724220624e-05, 'epoch': 0.15}\n",
      "{'loss': 0.1179, 'grad_norm': 1.0152053833007812, 'learning_rate': 9.248601119104716e-05, 'epoch': 0.15}\n",
      "{'loss': 0.0804, 'grad_norm': 0.8629934191703796, 'learning_rate': 9.24060751398881e-05, 'epoch': 0.15}\n",
      "{'loss': 0.1053, 'grad_norm': 0.8909463286399841, 'learning_rate': 9.232613908872903e-05, 'epoch': 0.15}\n",
      "{'loss': 0.0903, 'grad_norm': 0.7966621518135071, 'learning_rate': 9.224620303756995e-05, 'epoch': 0.16}\n",
      "{'loss': 0.0936, 'grad_norm': 0.9909332394599915, 'learning_rate': 9.216626698641088e-05, 'epoch': 0.16}\n",
      "{'loss': 0.0841, 'grad_norm': 0.5421081781387329, 'learning_rate': 9.20863309352518e-05, 'epoch': 0.16}\n",
      "{'loss': 0.0745, 'grad_norm': 0.6195942759513855, 'learning_rate': 9.200639488409272e-05, 'epoch': 0.16}\n",
      "{'loss': 0.0661, 'grad_norm': 0.8928937315940857, 'learning_rate': 9.192645883293366e-05, 'epoch': 0.16}\n",
      "{'loss': 0.0885, 'grad_norm': 0.7960435748100281, 'learning_rate': 9.184652278177458e-05, 'epoch': 0.16}\n",
      "{'loss': 0.0838, 'grad_norm': 1.1545289754867554, 'learning_rate': 9.176658673061551e-05, 'epoch': 0.16}\n",
      "{'loss': 0.0587, 'grad_norm': 1.2057774066925049, 'learning_rate': 9.168665067945644e-05, 'epoch': 0.17}\n",
      "{'loss': 0.0425, 'grad_norm': 0.5887529850006104, 'learning_rate': 9.160671462829736e-05, 'epoch': 0.17}\n",
      "{'loss': 0.0704, 'grad_norm': 1.0319527387619019, 'learning_rate': 9.15267785771383e-05, 'epoch': 0.17}\n",
      "{'loss': 0.0802, 'grad_norm': 0.6539095044136047, 'learning_rate': 9.144684252597923e-05, 'epoch': 0.17}\n",
      "{'loss': 0.0799, 'grad_norm': 0.7692834138870239, 'learning_rate': 9.136690647482015e-05, 'epoch': 0.17}\n",
      "{'loss': 0.0737, 'grad_norm': 0.8587551712989807, 'learning_rate': 9.128697042366107e-05, 'epoch': 0.17}\n",
      "{'loss': 0.0737, 'grad_norm': 0.8872256875038147, 'learning_rate': 9.120703437250199e-05, 'epoch': 0.18}\n",
      "{'loss': 0.0677, 'grad_norm': 0.7972935438156128, 'learning_rate': 9.112709832134293e-05, 'epoch': 0.18}\n",
      "{'loss': 0.0846, 'grad_norm': 0.7735320925712585, 'learning_rate': 9.104716227018386e-05, 'epoch': 0.18}\n",
      "{'loss': 0.0734, 'grad_norm': 0.6910821795463562, 'learning_rate': 9.096722621902478e-05, 'epoch': 0.18}\n",
      "{'loss': 0.1051, 'grad_norm': 0.6851401329040527, 'learning_rate': 9.088729016786571e-05, 'epoch': 0.18}\n",
      "{'loss': 0.083, 'grad_norm': 0.6143441796302795, 'learning_rate': 9.080735411670665e-05, 'epoch': 0.18}\n",
      "{'loss': 0.1076, 'grad_norm': 0.6243338584899902, 'learning_rate': 9.072741806554757e-05, 'epoch': 0.19}\n",
      "{'loss': 0.077, 'grad_norm': 0.5750529170036316, 'learning_rate': 9.06474820143885e-05, 'epoch': 0.19}\n",
      "{'loss': 0.0861, 'grad_norm': 2.3310928344726562, 'learning_rate': 9.056754596322942e-05, 'epoch': 0.19}\n",
      "{'loss': 0.0719, 'grad_norm': 0.8171910643577576, 'learning_rate': 9.048760991207034e-05, 'epoch': 0.19}\n",
      "{'loss': 0.0729, 'grad_norm': 0.5511642694473267, 'learning_rate': 9.040767386091128e-05, 'epoch': 0.19}\n",
      "{'loss': 0.0654, 'grad_norm': 0.6899793148040771, 'learning_rate': 9.03277378097522e-05, 'epoch': 0.19}\n",
      "{'loss': 0.066, 'grad_norm': 1.5626705884933472, 'learning_rate': 9.024780175859313e-05, 'epoch': 0.2}\n",
      "{'loss': 0.091, 'grad_norm': 0.5719121694564819, 'learning_rate': 9.016786570743405e-05, 'epoch': 0.2}\n",
      "{'loss': 0.1107, 'grad_norm': 1.2747505903244019, 'learning_rate': 9.008792965627498e-05, 'epoch': 0.2}\n",
      "{'loss': 0.0956, 'grad_norm': 0.8738363981246948, 'learning_rate': 9.000799360511592e-05, 'epoch': 0.2}\n",
      "{'loss': 0.0651, 'grad_norm': 0.5417240858078003, 'learning_rate': 8.992805755395684e-05, 'epoch': 0.2}\n",
      "{'loss': 0.121, 'grad_norm': 1.066495656967163, 'learning_rate': 8.984812150279777e-05, 'epoch': 0.2}\n",
      "{'loss': 0.0621, 'grad_norm': 1.2316901683807373, 'learning_rate': 8.97681854516387e-05, 'epoch': 0.2}\n",
      "{'loss': 0.0663, 'grad_norm': 0.9547280669212341, 'learning_rate': 8.968824940047962e-05, 'epoch': 0.21}\n",
      "{'loss': 0.1074, 'grad_norm': 0.6720202565193176, 'learning_rate': 8.960831334932054e-05, 'epoch': 0.21}\n",
      "{'loss': 0.0916, 'grad_norm': 1.4401514530181885, 'learning_rate': 8.952837729816146e-05, 'epoch': 0.21}\n",
      "{'loss': 0.08, 'grad_norm': 0.6856492161750793, 'learning_rate': 8.94484412470024e-05, 'epoch': 0.21}\n",
      "{'loss': 0.075, 'grad_norm': 0.8505118489265442, 'learning_rate': 8.936850519584333e-05, 'epoch': 0.21}\n",
      "{'loss': 0.072, 'grad_norm': 1.284454107284546, 'learning_rate': 8.928856914468425e-05, 'epoch': 0.21}\n",
      "{'loss': 0.0877, 'grad_norm': 0.9477383494377136, 'learning_rate': 8.920863309352519e-05, 'epoch': 0.22}\n",
      "{'loss': 0.0677, 'grad_norm': 0.8005480766296387, 'learning_rate': 8.912869704236612e-05, 'epoch': 0.22}\n",
      "{'loss': 0.0793, 'grad_norm': 1.3481028079986572, 'learning_rate': 8.904876099120704e-05, 'epoch': 0.22}\n",
      "{'loss': 0.0839, 'grad_norm': 0.8164150714874268, 'learning_rate': 8.896882494004797e-05, 'epoch': 0.22}\n",
      "{'loss': 0.0759, 'grad_norm': 0.6664577126502991, 'learning_rate': 8.888888888888889e-05, 'epoch': 0.22}\n",
      "{'loss': 0.0577, 'grad_norm': 1.260974645614624, 'learning_rate': 8.880895283772981e-05, 'epoch': 0.22}\n",
      "{'loss': 0.0942, 'grad_norm': 0.9289377927780151, 'learning_rate': 8.872901678657075e-05, 'epoch': 0.23}\n",
      "{'loss': 0.0698, 'grad_norm': 0.781985878944397, 'learning_rate': 8.864908073541167e-05, 'epoch': 0.23}\n",
      "{'loss': 0.0631, 'grad_norm': 0.70374596118927, 'learning_rate': 8.85691446842526e-05, 'epoch': 0.23}\n",
      "{'loss': 0.0994, 'grad_norm': 1.0722819566726685, 'learning_rate': 8.848920863309353e-05, 'epoch': 0.23}\n",
      "{'loss': 0.08, 'grad_norm': 0.7377099394798279, 'learning_rate': 8.840927258193445e-05, 'epoch': 0.23}\n",
      "{'loss': 0.0602, 'grad_norm': 0.835890531539917, 'learning_rate': 8.832933653077539e-05, 'epoch': 0.23}\n",
      "{'loss': 0.0698, 'grad_norm': 0.610396683216095, 'learning_rate': 8.824940047961631e-05, 'epoch': 0.24}\n",
      "{'loss': 0.0865, 'grad_norm': 0.8777399063110352, 'learning_rate': 8.816946442845724e-05, 'epoch': 0.24}\n",
      "{'loss': 0.0707, 'grad_norm': 0.786512017250061, 'learning_rate': 8.808952837729818e-05, 'epoch': 0.24}\n",
      "{'loss': 0.1024, 'grad_norm': 0.7391924858093262, 'learning_rate': 8.80095923261391e-05, 'epoch': 0.24}\n",
      "{'loss': 0.0869, 'grad_norm': 1.389099359512329, 'learning_rate': 8.792965627498002e-05, 'epoch': 0.24}\n",
      "{'loss': 0.0711, 'grad_norm': 0.6840548515319824, 'learning_rate': 8.784972022382095e-05, 'epoch': 0.24}\n",
      "{'loss': 0.0794, 'grad_norm': 0.8546214699745178, 'learning_rate': 8.776978417266187e-05, 'epoch': 0.24}\n",
      "{'loss': 0.0682, 'grad_norm': 0.8280532360076904, 'learning_rate': 8.76898481215028e-05, 'epoch': 0.25}\n",
      "{'loss': 0.0724, 'grad_norm': 0.5585725903511047, 'learning_rate': 8.760991207034372e-05, 'epoch': 0.25}\n",
      "{'loss': 0.0958, 'grad_norm': 1.4149322509765625, 'learning_rate': 8.752997601918466e-05, 'epoch': 0.25}\n",
      "{'loss': 0.0924, 'grad_norm': 0.7718948721885681, 'learning_rate': 8.745003996802559e-05, 'epoch': 0.25}\n",
      "{'loss': 0.0679, 'grad_norm': 0.6620501279830933, 'learning_rate': 8.737010391686651e-05, 'epoch': 0.25}\n",
      "{'loss': 0.0698, 'grad_norm': 0.8742446303367615, 'learning_rate': 8.729016786570744e-05, 'epoch': 0.25}\n",
      "{'loss': 0.0692, 'grad_norm': 0.6409071087837219, 'learning_rate': 8.721023181454837e-05, 'epoch': 0.26}\n",
      "{'loss': 0.0656, 'grad_norm': 0.631851315498352, 'learning_rate': 8.713029576338929e-05, 'epoch': 0.26}\n",
      "{'loss': 0.0671, 'grad_norm': 0.6589972376823425, 'learning_rate': 8.705035971223022e-05, 'epoch': 0.26}\n",
      "{'loss': 0.0785, 'grad_norm': 0.652653694152832, 'learning_rate': 8.697042366107114e-05, 'epoch': 0.26}\n",
      "{'loss': 0.0613, 'grad_norm': 0.5439626574516296, 'learning_rate': 8.689048760991207e-05, 'epoch': 0.26}\n",
      "{'loss': 0.0518, 'grad_norm': 0.491642564535141, 'learning_rate': 8.6810551558753e-05, 'epoch': 0.26}\n",
      "{'loss': 0.0898, 'grad_norm': 1.2118911743164062, 'learning_rate': 8.673061550759393e-05, 'epoch': 0.27}\n",
      "{'loss': 0.0834, 'grad_norm': 0.6526044607162476, 'learning_rate': 8.665067945643486e-05, 'epoch': 0.27}\n",
      "{'loss': 0.0656, 'grad_norm': 0.682530403137207, 'learning_rate': 8.657074340527578e-05, 'epoch': 0.27}\n",
      "{'loss': 0.0705, 'grad_norm': 0.6534165740013123, 'learning_rate': 8.649080735411671e-05, 'epoch': 0.27}\n",
      "{'loss': 0.0712, 'grad_norm': 0.6464582681655884, 'learning_rate': 8.641087130295765e-05, 'epoch': 0.27}\n",
      "{'loss': 0.0779, 'grad_norm': 0.9158483147621155, 'learning_rate': 8.633093525179857e-05, 'epoch': 0.27}\n",
      "{'loss': 0.1096, 'grad_norm': 0.6113861203193665, 'learning_rate': 8.625099920063949e-05, 'epoch': 0.27}\n",
      "{'loss': 0.058, 'grad_norm': 0.5566421151161194, 'learning_rate': 8.617106314948042e-05, 'epoch': 0.28}\n",
      "{'loss': 0.0906, 'grad_norm': 1.0177637338638306, 'learning_rate': 8.609112709832134e-05, 'epoch': 0.28}\n",
      "{'loss': 0.0567, 'grad_norm': 0.385581910610199, 'learning_rate': 8.601119104716228e-05, 'epoch': 0.28}\n",
      "{'loss': 0.0803, 'grad_norm': 1.4360482692718506, 'learning_rate': 8.59312549960032e-05, 'epoch': 0.28}\n",
      "{'loss': 0.0796, 'grad_norm': 0.780998170375824, 'learning_rate': 8.585131894484413e-05, 'epoch': 0.28}\n",
      "{'loss': 0.0604, 'grad_norm': 0.6385992169380188, 'learning_rate': 8.577138289368506e-05, 'epoch': 0.28}\n",
      "{'loss': 0.0762, 'grad_norm': 0.8681815266609192, 'learning_rate': 8.569144684252598e-05, 'epoch': 0.29}\n",
      "{'loss': 0.0717, 'grad_norm': 0.6094967722892761, 'learning_rate': 8.561151079136692e-05, 'epoch': 0.29}\n",
      "{'loss': 0.0781, 'grad_norm': 0.6547807455062866, 'learning_rate': 8.553157474020784e-05, 'epoch': 0.29}\n",
      "{'loss': 0.0998, 'grad_norm': 0.9443507790565491, 'learning_rate': 8.545163868904876e-05, 'epoch': 0.29}\n",
      "{'loss': 0.0824, 'grad_norm': 0.9372542500495911, 'learning_rate': 8.537170263788969e-05, 'epoch': 0.29}\n",
      "{'loss': 0.0677, 'grad_norm': 0.6512817740440369, 'learning_rate': 8.529176658673061e-05, 'epoch': 0.29}\n",
      "{'loss': 0.0493, 'grad_norm': 0.5980750918388367, 'learning_rate': 8.521183053557154e-05, 'epoch': 0.3}\n",
      "{'loss': 0.0755, 'grad_norm': 0.72274249792099, 'learning_rate': 8.513189448441248e-05, 'epoch': 0.3}\n",
      "{'loss': 0.0706, 'grad_norm': 0.840707004070282, 'learning_rate': 8.50519584332534e-05, 'epoch': 0.3}\n",
      "{'loss': 0.0755, 'grad_norm': 0.5561408400535583, 'learning_rate': 8.497202238209433e-05, 'epoch': 0.3}\n",
      "{'loss': 0.0658, 'grad_norm': 0.6525631546974182, 'learning_rate': 8.489208633093527e-05, 'epoch': 0.3}\n",
      "{'loss': 0.0609, 'grad_norm': 0.7190643548965454, 'learning_rate': 8.481215027977619e-05, 'epoch': 0.3}\n",
      "{'loss': 0.0966, 'grad_norm': 0.7777361869812012, 'learning_rate': 8.47322142286171e-05, 'epoch': 0.31}\n",
      "{'loss': 0.0578, 'grad_norm': 0.8389549255371094, 'learning_rate': 8.465227817745804e-05, 'epoch': 0.31}\n",
      "{'loss': 0.0534, 'grad_norm': 0.5930313467979431, 'learning_rate': 8.457234212629896e-05, 'epoch': 0.31}\n",
      "{'loss': 0.0567, 'grad_norm': 0.9107580184936523, 'learning_rate': 8.44924060751399e-05, 'epoch': 0.31}\n",
      "{'loss': 0.0923, 'grad_norm': 0.7119567394256592, 'learning_rate': 8.441247002398081e-05, 'epoch': 0.31}\n",
      "{'loss': 0.0631, 'grad_norm': 0.5208064317703247, 'learning_rate': 8.433253397282175e-05, 'epoch': 0.31}\n",
      "{'loss': 0.0763, 'grad_norm': 0.5759707093238831, 'learning_rate': 8.425259792166268e-05, 'epoch': 0.31}\n",
      "{'loss': 0.0691, 'grad_norm': 2.4376800060272217, 'learning_rate': 8.41726618705036e-05, 'epoch': 0.32}\n",
      "{'loss': 0.0851, 'grad_norm': 0.5990864038467407, 'learning_rate': 8.409272581934454e-05, 'epoch': 0.32}\n",
      "{'loss': 0.0784, 'grad_norm': 0.684657096862793, 'learning_rate': 8.401278976818546e-05, 'epoch': 0.32}\n",
      "{'loss': 0.0703, 'grad_norm': 1.1861271858215332, 'learning_rate': 8.393285371702639e-05, 'epoch': 0.32}\n",
      "{'loss': 0.0602, 'grad_norm': 0.5802955031394958, 'learning_rate': 8.385291766586731e-05, 'epoch': 0.32}\n",
      "{'loss': 0.0841, 'grad_norm': 0.601119339466095, 'learning_rate': 8.377298161470823e-05, 'epoch': 0.32}\n",
      "{'loss': 0.0414, 'grad_norm': 0.7084868550300598, 'learning_rate': 8.369304556354916e-05, 'epoch': 0.33}\n",
      "{'loss': 0.065, 'grad_norm': 0.6198440790176392, 'learning_rate': 8.361310951239008e-05, 'epoch': 0.33}\n",
      "{'loss': 0.0526, 'grad_norm': 0.4703003168106079, 'learning_rate': 8.353317346123102e-05, 'epoch': 0.33}\n",
      "{'loss': 0.0633, 'grad_norm': 0.5282295942306519, 'learning_rate': 8.345323741007195e-05, 'epoch': 0.33}\n",
      "{'loss': 0.0696, 'grad_norm': 1.0946524143218994, 'learning_rate': 8.337330135891287e-05, 'epoch': 0.33}\n",
      "{'loss': 0.0672, 'grad_norm': 0.6324830651283264, 'learning_rate': 8.32933653077538e-05, 'epoch': 0.33}\n",
      "{'loss': 0.0924, 'grad_norm': 0.7890888452529907, 'learning_rate': 8.321342925659474e-05, 'epoch': 0.34}\n",
      "{'loss': 0.1039, 'grad_norm': 0.7520777583122253, 'learning_rate': 8.313349320543566e-05, 'epoch': 0.34}\n",
      "{'loss': 0.0606, 'grad_norm': 0.5880356431007385, 'learning_rate': 8.305355715427658e-05, 'epoch': 0.34}\n",
      "{'loss': 0.0895, 'grad_norm': 0.9763580560684204, 'learning_rate': 8.29736211031175e-05, 'epoch': 0.34}\n",
      "{'loss': 0.0482, 'grad_norm': 1.6013741493225098, 'learning_rate': 8.289368505195843e-05, 'epoch': 0.34}\n",
      "{'loss': 0.0851, 'grad_norm': 0.6416590213775635, 'learning_rate': 8.281374900079937e-05, 'epoch': 0.34}\n",
      "{'loss': 0.0684, 'grad_norm': 0.5310612320899963, 'learning_rate': 8.273381294964029e-05, 'epoch': 0.35}\n",
      "{'loss': 0.066, 'grad_norm': 0.7729507088661194, 'learning_rate': 8.265387689848122e-05, 'epoch': 0.35}\n",
      "{'loss': 0.0865, 'grad_norm': 1.8838163614273071, 'learning_rate': 8.257394084732215e-05, 'epoch': 0.35}\n",
      "{'loss': 0.0666, 'grad_norm': 1.3411592245101929, 'learning_rate': 8.249400479616307e-05, 'epoch': 0.35}\n",
      "{'loss': 0.0644, 'grad_norm': 0.5266584753990173, 'learning_rate': 8.241406874500401e-05, 'epoch': 0.35}\n",
      "{'loss': 0.0905, 'grad_norm': 0.937216579914093, 'learning_rate': 8.233413269384493e-05, 'epoch': 0.35}\n",
      "{'loss': 0.0549, 'grad_norm': 0.433903306722641, 'learning_rate': 8.225419664268586e-05, 'epoch': 0.35}\n",
      "{'loss': 0.0789, 'grad_norm': 0.591304361820221, 'learning_rate': 8.217426059152678e-05, 'epoch': 0.36}\n",
      "{'loss': 0.0588, 'grad_norm': 0.6364412903785706, 'learning_rate': 8.20943245403677e-05, 'epoch': 0.36}\n",
      "{'loss': 0.0799, 'grad_norm': 0.5132033824920654, 'learning_rate': 8.201438848920863e-05, 'epoch': 0.36}\n",
      "{'loss': 0.0699, 'grad_norm': 0.6062927842140198, 'learning_rate': 8.193445243804957e-05, 'epoch': 0.36}\n",
      "{'loss': 0.0656, 'grad_norm': 0.7496045231819153, 'learning_rate': 8.185451638689049e-05, 'epoch': 0.36}\n",
      "{'loss': 0.0667, 'grad_norm': 0.5477256774902344, 'learning_rate': 8.177458033573142e-05, 'epoch': 0.36}\n",
      "{'loss': 0.0845, 'grad_norm': 1.1415307521820068, 'learning_rate': 8.169464428457234e-05, 'epoch': 0.37}\n",
      "{'loss': 0.0463, 'grad_norm': 0.45354190468788147, 'learning_rate': 8.161470823341328e-05, 'epoch': 0.37}\n",
      "{'loss': 0.0792, 'grad_norm': 0.6883977651596069, 'learning_rate': 8.153477218225421e-05, 'epoch': 0.37}\n",
      "{'loss': 0.0813, 'grad_norm': 0.7996445298194885, 'learning_rate': 8.145483613109513e-05, 'epoch': 0.37}\n",
      "{'loss': 0.062, 'grad_norm': 0.6836145520210266, 'learning_rate': 8.137490007993605e-05, 'epoch': 0.37}\n",
      "{'loss': 0.0719, 'grad_norm': 0.8516853451728821, 'learning_rate': 8.129496402877698e-05, 'epoch': 0.37}\n",
      "{'loss': 0.0514, 'grad_norm': 0.8678421378135681, 'learning_rate': 8.12150279776179e-05, 'epoch': 0.38}\n",
      "{'loss': 0.0498, 'grad_norm': 0.6432539224624634, 'learning_rate': 8.113509192645884e-05, 'epoch': 0.38}\n",
      "{'loss': 0.0598, 'grad_norm': 1.1699128150939941, 'learning_rate': 8.105515587529976e-05, 'epoch': 0.38}\n",
      "{'loss': 0.0415, 'grad_norm': 0.5174030065536499, 'learning_rate': 8.097521982414069e-05, 'epoch': 0.38}\n",
      "{'loss': 0.0581, 'grad_norm': 1.1895462274551392, 'learning_rate': 8.089528377298163e-05, 'epoch': 0.38}\n",
      "{'loss': 0.0583, 'grad_norm': 0.9536842703819275, 'learning_rate': 8.081534772182255e-05, 'epoch': 0.38}\n",
      "{'loss': 0.0687, 'grad_norm': 0.5026161670684814, 'learning_rate': 8.073541167066348e-05, 'epoch': 0.39}\n",
      "{'loss': 0.0931, 'grad_norm': 0.8828673362731934, 'learning_rate': 8.065547561950441e-05, 'epoch': 0.39}\n",
      "{'loss': 0.0788, 'grad_norm': 0.8899295926094055, 'learning_rate': 8.057553956834533e-05, 'epoch': 0.39}\n",
      "{'loss': 0.0611, 'grad_norm': 0.7638359069824219, 'learning_rate': 8.049560351718625e-05, 'epoch': 0.39}\n",
      "{'loss': 0.0716, 'grad_norm': 1.0594631433486938, 'learning_rate': 8.041566746602717e-05, 'epoch': 0.39}\n",
      "{'loss': 0.1004, 'grad_norm': 0.7312076687812805, 'learning_rate': 8.03357314148681e-05, 'epoch': 0.39}\n",
      "{'loss': 0.048, 'grad_norm': 0.500517725944519, 'learning_rate': 8.025579536370904e-05, 'epoch': 0.39}\n",
      "{'loss': 0.0956, 'grad_norm': 0.7170806527137756, 'learning_rate': 8.017585931254996e-05, 'epoch': 0.4}\n",
      "{'loss': 0.0658, 'grad_norm': 0.5469837784767151, 'learning_rate': 8.00959232613909e-05, 'epoch': 0.4}\n",
      "{'loss': 0.0714, 'grad_norm': 0.6148533821105957, 'learning_rate': 8.001598721023181e-05, 'epoch': 0.4}\n",
      "{'loss': 0.0678, 'grad_norm': 1.2512452602386475, 'learning_rate': 7.993605115907275e-05, 'epoch': 0.4}\n",
      "{'loss': 0.0914, 'grad_norm': 0.88535076379776, 'learning_rate': 7.985611510791368e-05, 'epoch': 0.4}\n",
      "{'loss': 0.0504, 'grad_norm': 0.7213850021362305, 'learning_rate': 7.97761790567546e-05, 'epoch': 0.4}\n",
      "{'loss': 0.0388, 'grad_norm': 0.5489826798439026, 'learning_rate': 7.969624300559552e-05, 'epoch': 0.41}\n",
      "{'loss': 0.0868, 'grad_norm': 0.7769040465354919, 'learning_rate': 7.961630695443646e-05, 'epoch': 0.41}\n",
      "{'loss': 0.063, 'grad_norm': 0.9979948997497559, 'learning_rate': 7.953637090327738e-05, 'epoch': 0.41}\n",
      "{'loss': 0.0655, 'grad_norm': 0.8502218127250671, 'learning_rate': 7.945643485211831e-05, 'epoch': 0.41}\n",
      "{'loss': 0.0515, 'grad_norm': 0.5298047661781311, 'learning_rate': 7.937649880095923e-05, 'epoch': 0.41}\n",
      "{'loss': 0.0564, 'grad_norm': 0.8395845293998718, 'learning_rate': 7.929656274980016e-05, 'epoch': 0.41}\n",
      "{'loss': 0.0757, 'grad_norm': 0.8940094709396362, 'learning_rate': 7.92166266986411e-05, 'epoch': 0.42}\n",
      "{'loss': 0.0712, 'grad_norm': 0.588250994682312, 'learning_rate': 7.913669064748202e-05, 'epoch': 0.42}\n",
      "{'loss': 0.0757, 'grad_norm': 0.7085177302360535, 'learning_rate': 7.905675459632295e-05, 'epoch': 0.42}\n",
      "{'loss': 0.0956, 'grad_norm': 0.8374015092849731, 'learning_rate': 7.897681854516387e-05, 'epoch': 0.42}\n",
      "{'loss': 0.0685, 'grad_norm': 0.8656692504882812, 'learning_rate': 7.889688249400479e-05, 'epoch': 0.42}\n",
      "{'loss': 0.0578, 'grad_norm': 0.7955440282821655, 'learning_rate': 7.881694644284572e-05, 'epoch': 0.42}\n",
      "{'loss': 0.0793, 'grad_norm': 0.8463674783706665, 'learning_rate': 7.873701039168664e-05, 'epoch': 0.43}\n",
      "{'loss': 0.0761, 'grad_norm': 1.194737434387207, 'learning_rate': 7.865707434052758e-05, 'epoch': 0.43}\n",
      "{'loss': 0.0597, 'grad_norm': 1.1380198001861572, 'learning_rate': 7.857713828936851e-05, 'epoch': 0.43}\n",
      "{'loss': 0.0986, 'grad_norm': 0.8171660900115967, 'learning_rate': 7.849720223820943e-05, 'epoch': 0.43}\n",
      "{'loss': 0.0648, 'grad_norm': 0.5101767182350159, 'learning_rate': 7.841726618705037e-05, 'epoch': 0.43}\n",
      "{'loss': 0.0597, 'grad_norm': 1.1499919891357422, 'learning_rate': 7.83373301358913e-05, 'epoch': 0.43}\n",
      "{'loss': 0.0851, 'grad_norm': 0.6953014731407166, 'learning_rate': 7.825739408473222e-05, 'epoch': 0.43}\n",
      "{'loss': 0.0557, 'grad_norm': 0.4755445718765259, 'learning_rate': 7.817745803357315e-05, 'epoch': 0.44}\n",
      "{'loss': 0.0662, 'grad_norm': 0.6137475967407227, 'learning_rate': 7.809752198241407e-05, 'epoch': 0.44}\n",
      "{'loss': 0.0643, 'grad_norm': 0.9221565127372742, 'learning_rate': 7.8017585931255e-05, 'epoch': 0.44}\n",
      "{'loss': 0.0866, 'grad_norm': 1.2882786989212036, 'learning_rate': 7.793764988009593e-05, 'epoch': 0.44}\n",
      "{'loss': 0.0953, 'grad_norm': 0.6379769444465637, 'learning_rate': 7.785771382893685e-05, 'epoch': 0.44}\n",
      "{'loss': 0.0588, 'grad_norm': 0.6471479535102844, 'learning_rate': 7.777777777777778e-05, 'epoch': 0.44}\n",
      "{'loss': 0.0536, 'grad_norm': 0.4813712239265442, 'learning_rate': 7.769784172661872e-05, 'epoch': 0.45}\n",
      "{'loss': 0.083, 'grad_norm': 0.6919170618057251, 'learning_rate': 7.761790567545964e-05, 'epoch': 0.45}\n",
      "{'loss': 0.0676, 'grad_norm': 0.5550916790962219, 'learning_rate': 7.753796962430057e-05, 'epoch': 0.45}\n",
      "{'loss': 0.0499, 'grad_norm': 0.47655871510505676, 'learning_rate': 7.745803357314149e-05, 'epoch': 0.45}\n",
      "{'loss': 0.0813, 'grad_norm': 0.6059690713882446, 'learning_rate': 7.737809752198242e-05, 'epoch': 0.45}\n",
      "{'loss': 0.074, 'grad_norm': 0.5719362497329712, 'learning_rate': 7.729816147082334e-05, 'epoch': 0.45}\n",
      "{'loss': 0.0715, 'grad_norm': 0.7115135192871094, 'learning_rate': 7.721822541966426e-05, 'epoch': 0.46}\n",
      "{'loss': 0.0821, 'grad_norm': 0.5908010601997375, 'learning_rate': 7.71382893685052e-05, 'epoch': 0.46}\n",
      "{'loss': 0.0548, 'grad_norm': 0.9576743841171265, 'learning_rate': 7.705835331734612e-05, 'epoch': 0.46}\n",
      "{'loss': 0.0431, 'grad_norm': 0.8290902972221375, 'learning_rate': 7.697841726618705e-05, 'epoch': 0.46}\n",
      "{'loss': 0.0649, 'grad_norm': 0.5988381505012512, 'learning_rate': 7.689848121502798e-05, 'epoch': 0.46}\n",
      "{'loss': 0.0565, 'grad_norm': 0.6043714284896851, 'learning_rate': 7.68185451638689e-05, 'epoch': 0.46}\n",
      "{'loss': 0.0497, 'grad_norm': 0.6412668824195862, 'learning_rate': 7.673860911270984e-05, 'epoch': 0.47}\n",
      "{'loss': 0.0815, 'grad_norm': 1.1190450191497803, 'learning_rate': 7.665867306155077e-05, 'epoch': 0.47}\n",
      "{'loss': 0.0437, 'grad_norm': 0.6682584285736084, 'learning_rate': 7.657873701039169e-05, 'epoch': 0.47}\n",
      "{'loss': 0.0891, 'grad_norm': 1.0861908197402954, 'learning_rate': 7.649880095923263e-05, 'epoch': 0.47}\n",
      "{'loss': 0.0464, 'grad_norm': 0.5321094393730164, 'learning_rate': 7.641886490807355e-05, 'epoch': 0.47}\n",
      "{'loss': 0.0691, 'grad_norm': 0.7718883752822876, 'learning_rate': 7.633892885691447e-05, 'epoch': 0.47}\n",
      "{'loss': 0.0567, 'grad_norm': 0.6173139810562134, 'learning_rate': 7.62589928057554e-05, 'epoch': 0.47}\n",
      "{'loss': 0.0658, 'grad_norm': 0.6699262857437134, 'learning_rate': 7.617905675459632e-05, 'epoch': 0.48}\n",
      "{'loss': 0.0962, 'grad_norm': 0.8210588097572327, 'learning_rate': 7.609912070343725e-05, 'epoch': 0.48}\n",
      "{'loss': 0.0566, 'grad_norm': 0.465666800737381, 'learning_rate': 7.601918465227819e-05, 'epoch': 0.48}\n",
      "{'loss': 0.056, 'grad_norm': 0.6078091263771057, 'learning_rate': 7.593924860111911e-05, 'epoch': 0.48}\n",
      "{'loss': 0.0841, 'grad_norm': 0.652855634689331, 'learning_rate': 7.585931254996004e-05, 'epoch': 0.48}\n",
      "{'loss': 0.0696, 'grad_norm': 0.688997745513916, 'learning_rate': 7.577937649880096e-05, 'epoch': 0.48}\n",
      "{'loss': 0.0651, 'grad_norm': 0.43943414092063904, 'learning_rate': 7.56994404476419e-05, 'epoch': 0.49}\n",
      "{'loss': 0.0682, 'grad_norm': 0.5315014123916626, 'learning_rate': 7.561950439648281e-05, 'epoch': 0.49}\n",
      "{'loss': 0.0726, 'grad_norm': 0.703578531742096, 'learning_rate': 7.553956834532374e-05, 'epoch': 0.49}\n",
      "{'loss': 0.0762, 'grad_norm': 1.2114406824111938, 'learning_rate': 7.545963229416467e-05, 'epoch': 0.49}\n",
      "{'loss': 0.0598, 'grad_norm': 0.5062307715415955, 'learning_rate': 7.53796962430056e-05, 'epoch': 0.49}\n",
      "{'loss': 0.0941, 'grad_norm': 1.6095625162124634, 'learning_rate': 7.529976019184652e-05, 'epoch': 0.49}\n",
      "{'loss': 0.0796, 'grad_norm': 0.8566817045211792, 'learning_rate': 7.521982414068746e-05, 'epoch': 0.5}\n",
      "{'loss': 0.0652, 'grad_norm': 0.5825716853141785, 'learning_rate': 7.513988808952838e-05, 'epoch': 0.5}\n",
      "{'loss': 0.0814, 'grad_norm': 0.6509563326835632, 'learning_rate': 7.505995203836931e-05, 'epoch': 0.5}\n",
      "{'loss': 0.055, 'grad_norm': 0.49830058217048645, 'learning_rate': 7.498001598721024e-05, 'epoch': 0.5}\n",
      "{'loss': 0.0874, 'grad_norm': 0.833573579788208, 'learning_rate': 7.490007993605116e-05, 'epoch': 0.5}\n",
      "{'loss': 0.0362, 'grad_norm': 0.4019397497177124, 'learning_rate': 7.48201438848921e-05, 'epoch': 0.5}\n",
      "{'loss': 0.058, 'grad_norm': 0.7040796875953674, 'learning_rate': 7.474020783373302e-05, 'epoch': 0.51}\n",
      "{'loss': 0.0725, 'grad_norm': 1.1806254386901855, 'learning_rate': 7.466027178257394e-05, 'epoch': 0.51}\n",
      "{'loss': 0.0705, 'grad_norm': 0.6670104265213013, 'learning_rate': 7.458033573141487e-05, 'epoch': 0.51}\n",
      "{'loss': 0.0762, 'grad_norm': 1.0259945392608643, 'learning_rate': 7.450039968025579e-05, 'epoch': 0.51}\n",
      "{'loss': 0.0636, 'grad_norm': 2.1015563011169434, 'learning_rate': 7.442046362909673e-05, 'epoch': 0.51}\n",
      "{'loss': 0.0648, 'grad_norm': 1.3648511171340942, 'learning_rate': 7.434052757793766e-05, 'epoch': 0.51}\n",
      "{'loss': 0.0506, 'grad_norm': 0.9872891902923584, 'learning_rate': 7.426059152677858e-05, 'epoch': 0.51}\n",
      "{'loss': 0.0522, 'grad_norm': 0.6449450850486755, 'learning_rate': 7.418065547561951e-05, 'epoch': 0.52}\n",
      "{'loss': 0.0908, 'grad_norm': 1.1369374990463257, 'learning_rate': 7.410071942446043e-05, 'epoch': 0.52}\n",
      "{'loss': 0.0455, 'grad_norm': 0.4914276599884033, 'learning_rate': 7.402078337330137e-05, 'epoch': 0.52}\n",
      "{'loss': 0.0854, 'grad_norm': 0.6972343325614929, 'learning_rate': 7.394084732214229e-05, 'epoch': 0.52}\n",
      "{'loss': 0.0618, 'grad_norm': 0.5930803418159485, 'learning_rate': 7.386091127098321e-05, 'epoch': 0.52}\n",
      "{'loss': 0.0562, 'grad_norm': 0.5641331672668457, 'learning_rate': 7.378097521982414e-05, 'epoch': 0.52}\n",
      "{'loss': 0.0488, 'grad_norm': 0.6294084787368774, 'learning_rate': 7.370103916866507e-05, 'epoch': 0.53}\n",
      "{'loss': 0.0559, 'grad_norm': 0.6740334033966064, 'learning_rate': 7.3621103117506e-05, 'epoch': 0.53}\n",
      "{'loss': 0.0747, 'grad_norm': 1.257432460784912, 'learning_rate': 7.354116706634693e-05, 'epoch': 0.53}\n",
      "{'loss': 0.0658, 'grad_norm': 0.615429699420929, 'learning_rate': 7.346123101518785e-05, 'epoch': 0.53}\n",
      "{'loss': 0.0583, 'grad_norm': 0.5996766090393066, 'learning_rate': 7.338129496402878e-05, 'epoch': 0.53}\n",
      "{'loss': 0.0456, 'grad_norm': 0.45490148663520813, 'learning_rate': 7.330135891286972e-05, 'epoch': 0.53}\n",
      "{'loss': 0.0524, 'grad_norm': 0.35393020510673523, 'learning_rate': 7.322142286171064e-05, 'epoch': 0.54}\n",
      "{'loss': 0.0702, 'grad_norm': 0.9450940489768982, 'learning_rate': 7.314148681055156e-05, 'epoch': 0.54}\n",
      "{'loss': 0.0489, 'grad_norm': 2.1147615909576416, 'learning_rate': 7.306155075939249e-05, 'epoch': 0.54}\n",
      "{'loss': 0.1044, 'grad_norm': 1.5640997886657715, 'learning_rate': 7.298161470823341e-05, 'epoch': 0.54}\n",
      "{'loss': 0.0503, 'grad_norm': 0.8298708200454712, 'learning_rate': 7.290167865707434e-05, 'epoch': 0.54}\n",
      "{'loss': 0.0753, 'grad_norm': 0.738579273223877, 'learning_rate': 7.282174260591526e-05, 'epoch': 0.54}\n",
      "{'loss': 0.0779, 'grad_norm': 0.6451403498649597, 'learning_rate': 7.27418065547562e-05, 'epoch': 0.55}\n",
      "{'loss': 0.0703, 'grad_norm': 0.6975817084312439, 'learning_rate': 7.266187050359713e-05, 'epoch': 0.55}\n",
      "{'loss': 0.0639, 'grad_norm': 0.6961306929588318, 'learning_rate': 7.258193445243805e-05, 'epoch': 0.55}\n",
      "{'loss': 0.0571, 'grad_norm': 0.49771174788475037, 'learning_rate': 7.250199840127898e-05, 'epoch': 0.55}\n",
      "{'loss': 0.0817, 'grad_norm': 0.6138179898262024, 'learning_rate': 7.242206235011992e-05, 'epoch': 0.55}\n",
      "{'loss': 0.0893, 'grad_norm': 0.6262066960334778, 'learning_rate': 7.234212629896084e-05, 'epoch': 0.55}\n",
      "{'loss': 0.0492, 'grad_norm': 0.4226886034011841, 'learning_rate': 7.226219024780176e-05, 'epoch': 0.55}\n",
      "{'loss': 0.0507, 'grad_norm': 0.7266295552253723, 'learning_rate': 7.218225419664268e-05, 'epoch': 0.56}\n",
      "{'loss': 0.0562, 'grad_norm': 0.7497761845588684, 'learning_rate': 7.210231814548361e-05, 'epoch': 0.56}\n",
      "{'loss': 0.051, 'grad_norm': 0.49754011631011963, 'learning_rate': 7.202238209432455e-05, 'epoch': 0.56}\n",
      "{'loss': 0.0513, 'grad_norm': 0.6321600675582886, 'learning_rate': 7.194244604316547e-05, 'epoch': 0.56}\n",
      "{'loss': 0.0687, 'grad_norm': 0.7082400918006897, 'learning_rate': 7.18625099920064e-05, 'epoch': 0.56}\n",
      "{'loss': 0.073, 'grad_norm': 0.6220186948776245, 'learning_rate': 7.178257394084733e-05, 'epoch': 0.56}\n",
      "{'loss': 0.081, 'grad_norm': 0.9441813826560974, 'learning_rate': 7.170263788968825e-05, 'epoch': 0.57}\n",
      "{'loss': 0.0633, 'grad_norm': 0.6496862173080444, 'learning_rate': 7.162270183852919e-05, 'epoch': 0.57}\n",
      "{'loss': 0.0578, 'grad_norm': 0.7606810927391052, 'learning_rate': 7.154276578737011e-05, 'epoch': 0.57}\n",
      "{'loss': 0.0552, 'grad_norm': 1.0854763984680176, 'learning_rate': 7.146282973621103e-05, 'epoch': 0.57}\n",
      "{'loss': 0.0629, 'grad_norm': 0.7195384502410889, 'learning_rate': 7.138289368505196e-05, 'epoch': 0.57}\n",
      "{'loss': 0.0657, 'grad_norm': 0.7933813333511353, 'learning_rate': 7.130295763389288e-05, 'epoch': 0.57}\n",
      "{'loss': 0.0784, 'grad_norm': 1.8255624771118164, 'learning_rate': 7.122302158273382e-05, 'epoch': 0.58}\n",
      "{'loss': 0.0585, 'grad_norm': 1.2177233695983887, 'learning_rate': 7.114308553157475e-05, 'epoch': 0.58}\n",
      "{'loss': 0.0722, 'grad_norm': 0.6410993337631226, 'learning_rate': 7.106314948041567e-05, 'epoch': 0.58}\n",
      "{'loss': 0.0644, 'grad_norm': 0.6206985116004944, 'learning_rate': 7.09832134292566e-05, 'epoch': 0.58}\n",
      "{'loss': 0.0741, 'grad_norm': 0.7093789577484131, 'learning_rate': 7.090327737809752e-05, 'epoch': 0.58}\n",
      "{'loss': 0.0519, 'grad_norm': 0.5521649122238159, 'learning_rate': 7.082334132693846e-05, 'epoch': 0.58}\n",
      "{'loss': 0.0503, 'grad_norm': 0.5171424150466919, 'learning_rate': 7.074340527577939e-05, 'epoch': 0.59}\n",
      "{'loss': 0.1282, 'grad_norm': 1.022912621498108, 'learning_rate': 7.066346922462031e-05, 'epoch': 0.59}\n",
      "{'loss': 0.0602, 'grad_norm': 0.7273170351982117, 'learning_rate': 7.058353317346123e-05, 'epoch': 0.59}\n",
      "{'loss': 0.0544, 'grad_norm': 0.9247394800186157, 'learning_rate': 7.050359712230215e-05, 'epoch': 0.59}\n",
      "{'loss': 0.0537, 'grad_norm': 0.6707534790039062, 'learning_rate': 7.042366107114308e-05, 'epoch': 0.59}\n",
      "{'loss': 0.0662, 'grad_norm': 0.7577255964279175, 'learning_rate': 7.034372501998402e-05, 'epoch': 0.59}\n",
      "{'loss': 0.0546, 'grad_norm': 0.55811607837677, 'learning_rate': 7.026378896882494e-05, 'epoch': 0.59}\n",
      "{'loss': 0.0702, 'grad_norm': 0.8252172470092773, 'learning_rate': 7.018385291766587e-05, 'epoch': 0.6}\n",
      "{'loss': 0.0663, 'grad_norm': 0.7203763127326965, 'learning_rate': 7.01039168665068e-05, 'epoch': 0.6}\n",
      "{'loss': 0.0541, 'grad_norm': 0.7100846767425537, 'learning_rate': 7.002398081534773e-05, 'epoch': 0.6}\n",
      "{'loss': 0.0621, 'grad_norm': 1.4165375232696533, 'learning_rate': 6.994404476418866e-05, 'epoch': 0.6}\n",
      "{'loss': 0.0799, 'grad_norm': 1.013142704963684, 'learning_rate': 6.986410871302958e-05, 'epoch': 0.6}\n",
      "{'loss': 0.0501, 'grad_norm': 0.45398443937301636, 'learning_rate': 6.97841726618705e-05, 'epoch': 0.6}\n",
      "{'loss': 0.0805, 'grad_norm': 0.8236932158470154, 'learning_rate': 6.970423661071143e-05, 'epoch': 0.61}\n",
      "{'loss': 0.071, 'grad_norm': 0.5981753468513489, 'learning_rate': 6.962430055955235e-05, 'epoch': 0.61}\n",
      "{'loss': 0.0958, 'grad_norm': 0.8307357430458069, 'learning_rate': 6.954436450839329e-05, 'epoch': 0.61}\n",
      "{'loss': 0.0773, 'grad_norm': 0.6712118983268738, 'learning_rate': 6.946442845723422e-05, 'epoch': 0.61}\n",
      "{'loss': 0.0611, 'grad_norm': 0.7294129133224487, 'learning_rate': 6.938449240607514e-05, 'epoch': 0.61}\n",
      "{'loss': 0.0895, 'grad_norm': 0.9993507266044617, 'learning_rate': 6.930455635491607e-05, 'epoch': 0.61}\n",
      "{'loss': 0.0699, 'grad_norm': 1.1800235509872437, 'learning_rate': 6.9224620303757e-05, 'epoch': 0.62}\n",
      "{'loss': 0.0619, 'grad_norm': 0.6949521899223328, 'learning_rate': 6.914468425259793e-05, 'epoch': 0.62}\n",
      "{'loss': 0.072, 'grad_norm': 0.7434670925140381, 'learning_rate': 6.906474820143886e-05, 'epoch': 0.62}\n",
      "{'loss': 0.077, 'grad_norm': 0.9794893264770508, 'learning_rate': 6.898481215027978e-05, 'epoch': 0.62}\n",
      "{'loss': 0.0655, 'grad_norm': 0.6011376976966858, 'learning_rate': 6.89048760991207e-05, 'epoch': 0.62}\n",
      "{'loss': 0.0485, 'grad_norm': 0.5145218372344971, 'learning_rate': 6.882494004796164e-05, 'epoch': 0.62}\n",
      "{'loss': 0.0605, 'grad_norm': 0.9019926190376282, 'learning_rate': 6.874500399680256e-05, 'epoch': 0.63}\n",
      "{'loss': 0.057, 'grad_norm': 0.5302246809005737, 'learning_rate': 6.866506794564349e-05, 'epoch': 0.63}\n",
      "{'loss': 0.0869, 'grad_norm': 2.9535655975341797, 'learning_rate': 6.858513189448441e-05, 'epoch': 0.63}\n",
      "{'loss': 0.0769, 'grad_norm': 1.010515570640564, 'learning_rate': 6.850519584332534e-05, 'epoch': 0.63}\n",
      "{'loss': 0.077, 'grad_norm': 0.7032708525657654, 'learning_rate': 6.842525979216628e-05, 'epoch': 0.63}\n",
      "{'loss': 0.0642, 'grad_norm': 0.5345372557640076, 'learning_rate': 6.83453237410072e-05, 'epoch': 0.63}\n",
      "{'loss': 0.0659, 'grad_norm': 0.5603325963020325, 'learning_rate': 6.826538768984813e-05, 'epoch': 0.63}\n",
      "{'loss': 0.0637, 'grad_norm': 0.5683276057243347, 'learning_rate': 6.818545163868905e-05, 'epoch': 0.64}\n",
      "{'loss': 0.0492, 'grad_norm': 0.7188296914100647, 'learning_rate': 6.810551558752997e-05, 'epoch': 0.64}\n",
      "{'loss': 0.0362, 'grad_norm': 0.7432945966720581, 'learning_rate': 6.80255795363709e-05, 'epoch': 0.64}\n",
      "{'loss': 0.0527, 'grad_norm': 0.6407827734947205, 'learning_rate': 6.794564348521183e-05, 'epoch': 0.64}\n",
      "{'loss': 0.0413, 'grad_norm': 0.7302839159965515, 'learning_rate': 6.786570743405276e-05, 'epoch': 0.64}\n",
      "{'loss': 0.0626, 'grad_norm': 0.5133183002471924, 'learning_rate': 6.778577138289369e-05, 'epoch': 0.64}\n",
      "{'loss': 0.0711, 'grad_norm': 0.684610903263092, 'learning_rate': 6.770583533173461e-05, 'epoch': 0.65}\n",
      "{'loss': 0.0657, 'grad_norm': 0.7120317220687866, 'learning_rate': 6.762589928057555e-05, 'epoch': 0.65}\n",
      "{'loss': 0.0589, 'grad_norm': 0.6010666489601135, 'learning_rate': 6.754596322941647e-05, 'epoch': 0.65}\n",
      "{'loss': 0.0627, 'grad_norm': 0.6569756865501404, 'learning_rate': 6.74660271782574e-05, 'epoch': 0.65}\n",
      "{'loss': 0.0505, 'grad_norm': 0.7571636438369751, 'learning_rate': 6.738609112709832e-05, 'epoch': 0.65}\n",
      "{'loss': 0.0666, 'grad_norm': 0.7346992492675781, 'learning_rate': 6.730615507593925e-05, 'epoch': 0.65}\n",
      "{'loss': 0.0516, 'grad_norm': 0.5885848999023438, 'learning_rate': 6.722621902478017e-05, 'epoch': 0.66}\n",
      "{'loss': 0.082, 'grad_norm': 0.9908430576324463, 'learning_rate': 6.714628297362111e-05, 'epoch': 0.66}\n",
      "{'loss': 0.0681, 'grad_norm': 0.5168172121047974, 'learning_rate': 6.706634692246203e-05, 'epoch': 0.66}\n",
      "{'loss': 0.0804, 'grad_norm': 1.0984930992126465, 'learning_rate': 6.698641087130296e-05, 'epoch': 0.66}\n",
      "{'loss': 0.0643, 'grad_norm': 0.6038265824317932, 'learning_rate': 6.690647482014388e-05, 'epoch': 0.66}\n",
      "{'loss': 0.0521, 'grad_norm': 0.802299976348877, 'learning_rate': 6.682653876898482e-05, 'epoch': 0.66}\n",
      "{'loss': 0.089, 'grad_norm': 0.7502283453941345, 'learning_rate': 6.674660271782575e-05, 'epoch': 0.67}\n",
      "{'loss': 0.0629, 'grad_norm': 0.6156256794929504, 'learning_rate': 6.666666666666667e-05, 'epoch': 0.67}\n",
      "{'loss': 0.0576, 'grad_norm': 0.5183846950531006, 'learning_rate': 6.65867306155076e-05, 'epoch': 0.67}\n",
      "{'loss': 0.0712, 'grad_norm': 0.8143178820610046, 'learning_rate': 6.650679456434852e-05, 'epoch': 0.67}\n",
      "{'loss': 0.067, 'grad_norm': 0.6750891804695129, 'learning_rate': 6.642685851318944e-05, 'epoch': 0.67}\n",
      "{'loss': 0.0688, 'grad_norm': 0.8464298844337463, 'learning_rate': 6.634692246203038e-05, 'epoch': 0.67}\n",
      "{'loss': 0.0687, 'grad_norm': 0.6588279604911804, 'learning_rate': 6.62669864108713e-05, 'epoch': 0.67}\n",
      "{'loss': 0.0591, 'grad_norm': 0.653632402420044, 'learning_rate': 6.618705035971223e-05, 'epoch': 0.68}\n",
      "{'loss': 0.0416, 'grad_norm': 0.4830593764781952, 'learning_rate': 6.610711430855317e-05, 'epoch': 0.68}\n",
      "{'loss': 0.0708, 'grad_norm': 0.5807393193244934, 'learning_rate': 6.602717825739409e-05, 'epoch': 0.68}\n",
      "{'loss': 0.0793, 'grad_norm': 0.6838317513465881, 'learning_rate': 6.594724220623502e-05, 'epoch': 0.68}\n",
      "{'loss': 0.0703, 'grad_norm': 0.8406774401664734, 'learning_rate': 6.586730615507595e-05, 'epoch': 0.68}\n",
      "{'loss': 0.053, 'grad_norm': 0.6354793906211853, 'learning_rate': 6.578737010391687e-05, 'epoch': 0.68}\n",
      "{'loss': 0.058, 'grad_norm': 0.5247426629066467, 'learning_rate': 6.570743405275779e-05, 'epoch': 0.69}\n",
      "{'loss': 0.0424, 'grad_norm': 0.7130489349365234, 'learning_rate': 6.562749800159871e-05, 'epoch': 0.69}\n",
      "{'loss': 0.0533, 'grad_norm': 0.6576072573661804, 'learning_rate': 6.554756195043965e-05, 'epoch': 0.69}\n",
      "{'loss': 0.0602, 'grad_norm': 0.5444572567939758, 'learning_rate': 6.546762589928058e-05, 'epoch': 0.69}\n",
      "{'loss': 0.0719, 'grad_norm': 0.8648955225944519, 'learning_rate': 6.53876898481215e-05, 'epoch': 0.69}\n",
      "{'loss': 0.0593, 'grad_norm': 1.1772767305374146, 'learning_rate': 6.530775379696243e-05, 'epoch': 0.69}\n",
      "{'loss': 0.0865, 'grad_norm': 0.5829980969429016, 'learning_rate': 6.522781774580337e-05, 'epoch': 0.7}\n",
      "{'loss': 0.0682, 'grad_norm': 0.6011555790901184, 'learning_rate': 6.514788169464429e-05, 'epoch': 0.7}\n",
      "{'loss': 0.0817, 'grad_norm': 0.6533005833625793, 'learning_rate': 6.506794564348522e-05, 'epoch': 0.7}\n",
      "{'loss': 0.0626, 'grad_norm': 0.6326716542243958, 'learning_rate': 6.498800959232614e-05, 'epoch': 0.7}\n",
      "{'loss': 0.0874, 'grad_norm': 0.9235350489616394, 'learning_rate': 6.490807354116708e-05, 'epoch': 0.7}\n",
      "{'loss': 0.06, 'grad_norm': 0.6218289136886597, 'learning_rate': 6.4828137490008e-05, 'epoch': 0.7}\n",
      "{'loss': 0.0539, 'grad_norm': 0.5306552052497864, 'learning_rate': 6.474820143884892e-05, 'epoch': 0.71}\n",
      "{'loss': 0.0587, 'grad_norm': 1.2885023355484009, 'learning_rate': 6.466826538768985e-05, 'epoch': 0.71}\n",
      "{'loss': 0.0622, 'grad_norm': 1.2455660104751587, 'learning_rate': 6.458832933653078e-05, 'epoch': 0.71}\n",
      "{'loss': 0.0589, 'grad_norm': 0.4676665663719177, 'learning_rate': 6.45083932853717e-05, 'epoch': 0.71}\n",
      "{'loss': 0.1103, 'grad_norm': 0.8036826252937317, 'learning_rate': 6.442845723421264e-05, 'epoch': 0.71}\n",
      "{'loss': 0.0589, 'grad_norm': 0.4884054958820343, 'learning_rate': 6.434852118305356e-05, 'epoch': 0.71}\n",
      "{'loss': 0.0617, 'grad_norm': 0.5245758295059204, 'learning_rate': 6.426858513189449e-05, 'epoch': 0.71}\n",
      "{'loss': 0.0867, 'grad_norm': 0.8267971277236938, 'learning_rate': 6.418864908073542e-05, 'epoch': 0.72}\n",
      "{'loss': 0.046, 'grad_norm': 0.871167004108429, 'learning_rate': 6.410871302957634e-05, 'epoch': 0.72}\n",
      "{'loss': 0.061, 'grad_norm': 0.6432906985282898, 'learning_rate': 6.402877697841726e-05, 'epoch': 0.72}\n",
      "{'loss': 0.0661, 'grad_norm': 0.6762380003929138, 'learning_rate': 6.394884092725818e-05, 'epoch': 0.72}\n",
      "{'loss': 0.0673, 'grad_norm': 0.6630980968475342, 'learning_rate': 6.386890487609912e-05, 'epoch': 0.72}\n",
      "{'loss': 0.0674, 'grad_norm': 0.6949784159660339, 'learning_rate': 6.378896882494005e-05, 'epoch': 0.72}\n",
      "{'loss': 0.044, 'grad_norm': 0.410261332988739, 'learning_rate': 6.370903277378097e-05, 'epoch': 0.73}\n",
      "{'loss': 0.0536, 'grad_norm': 0.49366313219070435, 'learning_rate': 6.36290967226219e-05, 'epoch': 0.73}\n",
      "{'loss': 0.0348, 'grad_norm': 0.5569031238555908, 'learning_rate': 6.354916067146284e-05, 'epoch': 0.73}\n",
      "{'loss': 0.0549, 'grad_norm': 0.6115267872810364, 'learning_rate': 6.346922462030376e-05, 'epoch': 0.73}\n",
      "{'loss': 0.07, 'grad_norm': 0.7408627271652222, 'learning_rate': 6.33892885691447e-05, 'epoch': 0.73}\n",
      "{'loss': 0.07, 'grad_norm': 0.6255368590354919, 'learning_rate': 6.330935251798561e-05, 'epoch': 0.73}\n",
      "{'loss': 0.0509, 'grad_norm': 0.7584415674209595, 'learning_rate': 6.322941646682655e-05, 'epoch': 0.74}\n",
      "{'loss': 0.0668, 'grad_norm': 0.4410019814968109, 'learning_rate': 6.314948041566747e-05, 'epoch': 0.74}\n",
      "{'loss': 0.125, 'grad_norm': 0.9814014434814453, 'learning_rate': 6.306954436450839e-05, 'epoch': 0.74}\n",
      "{'loss': 0.0668, 'grad_norm': 0.6049373745918274, 'learning_rate': 6.298960831334932e-05, 'epoch': 0.74}\n",
      "{'loss': 0.0649, 'grad_norm': 1.0838227272033691, 'learning_rate': 6.290967226219026e-05, 'epoch': 0.74}\n",
      "{'loss': 0.0585, 'grad_norm': 0.7037262916564941, 'learning_rate': 6.282973621103118e-05, 'epoch': 0.74}\n",
      "{'loss': 0.0606, 'grad_norm': 0.5126374363899231, 'learning_rate': 6.274980015987211e-05, 'epoch': 0.75}\n",
      "{'loss': 0.0553, 'grad_norm': 0.5132865309715271, 'learning_rate': 6.266986410871303e-05, 'epoch': 0.75}\n",
      "{'loss': 0.0598, 'grad_norm': 0.5545735955238342, 'learning_rate': 6.258992805755396e-05, 'epoch': 0.75}\n",
      "{'loss': 0.0747, 'grad_norm': 1.3787195682525635, 'learning_rate': 6.25099920063949e-05, 'epoch': 0.75}\n",
      "{'loss': 0.0523, 'grad_norm': 1.356465220451355, 'learning_rate': 6.243005595523582e-05, 'epoch': 0.75}\n",
      "{'loss': 0.1157, 'grad_norm': 0.563590407371521, 'learning_rate': 6.235011990407674e-05, 'epoch': 0.75}\n",
      "{'loss': 0.0676, 'grad_norm': 1.0722662210464478, 'learning_rate': 6.227018385291767e-05, 'epoch': 0.75}\n",
      "{'loss': 0.0979, 'grad_norm': 0.8365610837936401, 'learning_rate': 6.219024780175859e-05, 'epoch': 0.76}\n",
      "{'loss': 0.0325, 'grad_norm': 0.6265783905982971, 'learning_rate': 6.211031175059952e-05, 'epoch': 0.76}\n",
      "{'loss': 0.0614, 'grad_norm': 0.8003876209259033, 'learning_rate': 6.203037569944044e-05, 'epoch': 0.76}\n",
      "{'loss': 0.0793, 'grad_norm': 0.7960026860237122, 'learning_rate': 6.195043964828138e-05, 'epoch': 0.76}\n",
      "{'loss': 0.0558, 'grad_norm': 0.8336718678474426, 'learning_rate': 6.187050359712231e-05, 'epoch': 0.76}\n",
      "{'loss': 0.0727, 'grad_norm': 0.619466245174408, 'learning_rate': 6.179056754596323e-05, 'epoch': 0.76}\n",
      "{'loss': 0.0577, 'grad_norm': 0.8327270150184631, 'learning_rate': 6.171063149480417e-05, 'epoch': 0.77}\n",
      "{'loss': 0.0687, 'grad_norm': 0.7997889518737793, 'learning_rate': 6.163069544364509e-05, 'epoch': 0.77}\n",
      "{'loss': 0.0757, 'grad_norm': 0.7643046975135803, 'learning_rate': 6.155075939248602e-05, 'epoch': 0.77}\n",
      "{'loss': 0.0527, 'grad_norm': 0.4221944510936737, 'learning_rate': 6.147082334132694e-05, 'epoch': 0.77}\n",
      "{'loss': 0.0723, 'grad_norm': 0.5356427431106567, 'learning_rate': 6.139088729016786e-05, 'epoch': 0.77}\n",
      "{'loss': 0.0601, 'grad_norm': 0.4673820436000824, 'learning_rate': 6.13109512390088e-05, 'epoch': 0.77}\n",
      "{'loss': 0.0483, 'grad_norm': 0.48848459124565125, 'learning_rate': 6.123101518784973e-05, 'epoch': 0.78}\n",
      "{'loss': 0.08, 'grad_norm': 0.5868401527404785, 'learning_rate': 6.115107913669065e-05, 'epoch': 0.78}\n",
      "{'loss': 0.0815, 'grad_norm': 1.3373204469680786, 'learning_rate': 6.107114308553158e-05, 'epoch': 0.78}\n",
      "{'loss': 0.051, 'grad_norm': 0.46354547142982483, 'learning_rate': 6.09912070343725e-05, 'epoch': 0.78}\n",
      "{'loss': 0.0548, 'grad_norm': 0.6367925405502319, 'learning_rate': 6.091127098321343e-05, 'epoch': 0.78}\n",
      "{'loss': 0.0701, 'grad_norm': 1.3714715242385864, 'learning_rate': 6.083133493205436e-05, 'epoch': 0.78}\n",
      "{'loss': 0.0728, 'grad_norm': 0.7809383273124695, 'learning_rate': 6.075139888089528e-05, 'epoch': 0.78}\n",
      "{'loss': 0.068, 'grad_norm': 0.5168775916099548, 'learning_rate': 6.0671462829736215e-05, 'epoch': 0.79}\n",
      "{'loss': 0.052, 'grad_norm': 0.5201380848884583, 'learning_rate': 6.059152677857714e-05, 'epoch': 0.79}\n",
      "{'loss': 0.0631, 'grad_norm': 1.171284556388855, 'learning_rate': 6.051159072741807e-05, 'epoch': 0.79}\n",
      "{'loss': 0.0821, 'grad_norm': 0.8705019354820251, 'learning_rate': 6.0431654676258996e-05, 'epoch': 0.79}\n",
      "{'loss': 0.0685, 'grad_norm': 0.7757813930511475, 'learning_rate': 6.0351718625099916e-05, 'epoch': 0.79}\n",
      "{'loss': 0.0644, 'grad_norm': 0.4878198206424713, 'learning_rate': 6.027178257394085e-05, 'epoch': 0.79}\n",
      "{'loss': 0.0417, 'grad_norm': 0.4172496795654297, 'learning_rate': 6.0191846522781784e-05, 'epoch': 0.8}\n",
      "{'loss': 0.085, 'grad_norm': 1.3108218908309937, 'learning_rate': 6.0111910471622704e-05, 'epoch': 0.8}\n",
      "{'loss': 0.0574, 'grad_norm': 0.6076488494873047, 'learning_rate': 6.003197442046363e-05, 'epoch': 0.8}\n",
      "{'loss': 0.0549, 'grad_norm': 0.6203380823135376, 'learning_rate': 5.9952038369304564e-05, 'epoch': 0.8}\n",
      "{'loss': 0.0571, 'grad_norm': 0.4319462478160858, 'learning_rate': 5.9872102318145485e-05, 'epoch': 0.8}\n",
      "{'loss': 0.0387, 'grad_norm': 0.4839584231376648, 'learning_rate': 5.979216626698642e-05, 'epoch': 0.8}\n",
      "{'loss': 0.0497, 'grad_norm': 0.5585970878601074, 'learning_rate': 5.971223021582734e-05, 'epoch': 0.81}\n",
      "{'loss': 0.093, 'grad_norm': 0.726218044757843, 'learning_rate': 5.9632294164668265e-05, 'epoch': 0.81}\n",
      "{'loss': 0.06, 'grad_norm': 0.5562211275100708, 'learning_rate': 5.95523581135092e-05, 'epoch': 0.81}\n",
      "{'loss': 0.0732, 'grad_norm': 0.8359010219573975, 'learning_rate': 5.947242206235012e-05, 'epoch': 0.81}\n",
      "{'loss': 0.065, 'grad_norm': 0.6839596629142761, 'learning_rate': 5.939248601119105e-05, 'epoch': 0.81}\n",
      "{'loss': 0.0384, 'grad_norm': 0.7251527309417725, 'learning_rate': 5.931254996003198e-05, 'epoch': 0.81}\n",
      "{'loss': 0.0557, 'grad_norm': 0.5676196813583374, 'learning_rate': 5.92326139088729e-05, 'epoch': 0.82}\n",
      "{'loss': 0.0862, 'grad_norm': 0.8441506624221802, 'learning_rate': 5.9152677857713834e-05, 'epoch': 0.82}\n",
      "{'loss': 0.0666, 'grad_norm': 0.7017098665237427, 'learning_rate': 5.9072741806554754e-05, 'epoch': 0.82}\n",
      "{'loss': 0.0622, 'grad_norm': 0.7595837712287903, 'learning_rate': 5.899280575539569e-05, 'epoch': 0.82}\n",
      "{'loss': 0.0735, 'grad_norm': 0.6536231637001038, 'learning_rate': 5.8912869704236614e-05, 'epoch': 0.82}\n",
      "{'loss': 0.0492, 'grad_norm': 0.5806124806404114, 'learning_rate': 5.8832933653077534e-05, 'epoch': 0.82}\n",
      "{'loss': 0.0661, 'grad_norm': 0.6220739483833313, 'learning_rate': 5.875299760191847e-05, 'epoch': 0.82}\n",
      "{'loss': 0.0632, 'grad_norm': 0.5557699799537659, 'learning_rate': 5.86730615507594e-05, 'epoch': 0.83}\n",
      "{'loss': 0.0619, 'grad_norm': 0.567371666431427, 'learning_rate': 5.859312549960032e-05, 'epoch': 0.83}\n",
      "{'loss': 0.0754, 'grad_norm': 0.6354544758796692, 'learning_rate': 5.8513189448441256e-05, 'epoch': 0.83}\n",
      "{'loss': 0.0692, 'grad_norm': 0.6257568001747131, 'learning_rate': 5.8433253397282176e-05, 'epoch': 0.83}\n",
      "{'loss': 0.0575, 'grad_norm': 0.5865040421485901, 'learning_rate': 5.83533173461231e-05, 'epoch': 0.83}\n",
      "{'loss': 0.0545, 'grad_norm': 0.5499489307403564, 'learning_rate': 5.8273381294964036e-05, 'epoch': 0.83}\n",
      "{'loss': 0.0592, 'grad_norm': 0.37995612621307373, 'learning_rate': 5.8193445243804957e-05, 'epoch': 0.84}\n",
      "{'loss': 0.0534, 'grad_norm': 1.0057604312896729, 'learning_rate': 5.811350919264589e-05, 'epoch': 0.84}\n",
      "{'loss': 0.0608, 'grad_norm': 0.43912574648857117, 'learning_rate': 5.803357314148681e-05, 'epoch': 0.84}\n",
      "{'loss': 0.0851, 'grad_norm': 0.8173922300338745, 'learning_rate': 5.795363709032774e-05, 'epoch': 0.84}\n",
      "{'loss': 0.0695, 'grad_norm': 0.7178976535797119, 'learning_rate': 5.787370103916867e-05, 'epoch': 0.84}\n",
      "{'loss': 0.0753, 'grad_norm': 0.6679802536964417, 'learning_rate': 5.779376498800959e-05, 'epoch': 0.84}\n",
      "{'loss': 0.0503, 'grad_norm': 0.4924282729625702, 'learning_rate': 5.7713828936850525e-05, 'epoch': 0.85}\n",
      "{'loss': 0.0487, 'grad_norm': 0.5226456522941589, 'learning_rate': 5.763389288569145e-05, 'epoch': 0.85}\n",
      "{'loss': 0.0588, 'grad_norm': 0.35079455375671387, 'learning_rate': 5.755395683453237e-05, 'epoch': 0.85}\n",
      "{'loss': 0.0353, 'grad_norm': 0.42996466159820557, 'learning_rate': 5.7474020783373306e-05, 'epoch': 0.85}\n",
      "{'loss': 0.0555, 'grad_norm': 0.5261819958686829, 'learning_rate': 5.7394084732214226e-05, 'epoch': 0.85}\n",
      "{'loss': 0.0493, 'grad_norm': 0.5543297529220581, 'learning_rate': 5.731414868105516e-05, 'epoch': 0.85}\n",
      "{'loss': 0.0603, 'grad_norm': 0.5077587962150574, 'learning_rate': 5.7234212629896086e-05, 'epoch': 0.86}\n",
      "{'loss': 0.0638, 'grad_norm': 0.8292233347892761, 'learning_rate': 5.7154276578737006e-05, 'epoch': 0.86}\n",
      "{'loss': 0.0555, 'grad_norm': 0.6521849632263184, 'learning_rate': 5.707434052757794e-05, 'epoch': 0.86}\n",
      "{'loss': 0.0739, 'grad_norm': 0.5524619221687317, 'learning_rate': 5.6994404476418874e-05, 'epoch': 0.86}\n",
      "{'loss': 0.0788, 'grad_norm': 0.6070600748062134, 'learning_rate': 5.6914468425259794e-05, 'epoch': 0.86}\n",
      "{'loss': 0.0509, 'grad_norm': 0.4703529477119446, 'learning_rate': 5.683453237410072e-05, 'epoch': 0.86}\n",
      "{'loss': 0.0524, 'grad_norm': 0.7764633297920227, 'learning_rate': 5.675459632294165e-05, 'epoch': 0.86}\n",
      "{'loss': 0.0704, 'grad_norm': 0.5371454954147339, 'learning_rate': 5.6674660271782575e-05, 'epoch': 0.87}\n",
      "{'loss': 0.0539, 'grad_norm': 0.9434237480163574, 'learning_rate': 5.659472422062351e-05, 'epoch': 0.87}\n",
      "{'loss': 0.0545, 'grad_norm': 0.7429893612861633, 'learning_rate': 5.651478816946443e-05, 'epoch': 0.87}\n",
      "{'loss': 0.047, 'grad_norm': 0.6626811027526855, 'learning_rate': 5.643485211830536e-05, 'epoch': 0.87}\n",
      "{'loss': 0.0602, 'grad_norm': 0.7418380975723267, 'learning_rate': 5.635491606714629e-05, 'epoch': 0.87}\n",
      "{'loss': 0.0476, 'grad_norm': 0.6989933848381042, 'learning_rate': 5.627498001598721e-05, 'epoch': 0.87}\n",
      "{'loss': 0.0938, 'grad_norm': 0.9409687519073486, 'learning_rate': 5.619504396482814e-05, 'epoch': 0.88}\n",
      "{'loss': 0.0421, 'grad_norm': 0.43256083130836487, 'learning_rate': 5.611510791366906e-05, 'epoch': 0.88}\n",
      "{'loss': 0.0471, 'grad_norm': 0.3518013656139374, 'learning_rate': 5.603517186251e-05, 'epoch': 0.88}\n",
      "{'loss': 0.0543, 'grad_norm': 0.6480188965797424, 'learning_rate': 5.5955235811350924e-05, 'epoch': 0.88}\n",
      "{'loss': 0.054, 'grad_norm': 0.84911048412323, 'learning_rate': 5.5875299760191844e-05, 'epoch': 0.88}\n",
      "{'loss': 0.0432, 'grad_norm': 1.1662782430648804, 'learning_rate': 5.579536370903278e-05, 'epoch': 0.88}\n",
      "{'loss': 0.0652, 'grad_norm': 0.6008872389793396, 'learning_rate': 5.571542765787371e-05, 'epoch': 0.89}\n",
      "{'loss': 0.0632, 'grad_norm': 1.5355799198150635, 'learning_rate': 5.563549160671463e-05, 'epoch': 0.89}\n",
      "{'loss': 0.0404, 'grad_norm': 0.46445900201797485, 'learning_rate': 5.555555555555556e-05, 'epoch': 0.89}\n",
      "{'loss': 0.058, 'grad_norm': 0.37720558047294617, 'learning_rate': 5.547561950439648e-05, 'epoch': 0.89}\n",
      "{'loss': 0.0596, 'grad_norm': 0.5827159881591797, 'learning_rate': 5.539568345323741e-05, 'epoch': 0.89}\n",
      "{'loss': 0.0671, 'grad_norm': 0.38624659180641174, 'learning_rate': 5.5315747402078346e-05, 'epoch': 0.89}\n",
      "{'loss': 0.0614, 'grad_norm': 0.909527063369751, 'learning_rate': 5.5235811350919266e-05, 'epoch': 0.9}\n",
      "{'loss': 0.0625, 'grad_norm': 0.8571048974990845, 'learning_rate': 5.515587529976019e-05, 'epoch': 0.9}\n",
      "{'loss': 0.0451, 'grad_norm': 0.6463587284088135, 'learning_rate': 5.5075939248601126e-05, 'epoch': 0.9}\n",
      "{'loss': 0.0796, 'grad_norm': 0.6393102407455444, 'learning_rate': 5.4996003197442047e-05, 'epoch': 0.9}\n",
      "{'loss': 0.069, 'grad_norm': 1.066258430480957, 'learning_rate': 5.491606714628298e-05, 'epoch': 0.9}\n",
      "{'loss': 0.0564, 'grad_norm': 0.8970808386802673, 'learning_rate': 5.48361310951239e-05, 'epoch': 0.9}\n",
      "{'loss': 0.0704, 'grad_norm': 0.7641235589981079, 'learning_rate': 5.4756195043964834e-05, 'epoch': 0.9}\n",
      "{'loss': 0.0638, 'grad_norm': 0.5378516912460327, 'learning_rate': 5.467625899280576e-05, 'epoch': 0.91}\n",
      "{'loss': 0.0479, 'grad_norm': 0.32548993825912476, 'learning_rate': 5.459632294164668e-05, 'epoch': 0.91}\n",
      "{'loss': 0.0612, 'grad_norm': 0.481967955827713, 'learning_rate': 5.4516386890487615e-05, 'epoch': 0.91}\n",
      "{'loss': 0.0531, 'grad_norm': 0.4743179678916931, 'learning_rate': 5.4436450839328535e-05, 'epoch': 0.91}\n",
      "{'loss': 0.0652, 'grad_norm': 0.7982161045074463, 'learning_rate': 5.435651478816947e-05, 'epoch': 0.91}\n",
      "{'loss': 0.0526, 'grad_norm': 0.5354200601577759, 'learning_rate': 5.4276578737010396e-05, 'epoch': 0.91}\n",
      "{'loss': 0.0703, 'grad_norm': 0.6776602268218994, 'learning_rate': 5.4196642685851316e-05, 'epoch': 0.92}\n",
      "{'loss': 0.0423, 'grad_norm': 0.4838322103023529, 'learning_rate': 5.411670663469225e-05, 'epoch': 0.92}\n",
      "{'loss': 0.0645, 'grad_norm': 0.41053491830825806, 'learning_rate': 5.403677058353318e-05, 'epoch': 0.92}\n",
      "{'loss': 0.0582, 'grad_norm': 0.6651817560195923, 'learning_rate': 5.39568345323741e-05, 'epoch': 0.92}\n",
      "{'loss': 0.0608, 'grad_norm': 0.6099934577941895, 'learning_rate': 5.387689848121503e-05, 'epoch': 0.92}\n",
      "{'loss': 0.0621, 'grad_norm': 0.6256654262542725, 'learning_rate': 5.379696243005595e-05, 'epoch': 0.92}\n",
      "{'loss': 0.0544, 'grad_norm': 0.4159781038761139, 'learning_rate': 5.3717026378896884e-05, 'epoch': 0.93}\n",
      "{'loss': 0.0665, 'grad_norm': 0.8834148049354553, 'learning_rate': 5.363709032773782e-05, 'epoch': 0.93}\n",
      "{'loss': 0.0464, 'grad_norm': 0.4321994185447693, 'learning_rate': 5.355715427657874e-05, 'epoch': 0.93}\n",
      "{'loss': 0.0462, 'grad_norm': 0.5839678645133972, 'learning_rate': 5.3477218225419665e-05, 'epoch': 0.93}\n",
      "{'loss': 0.0486, 'grad_norm': 0.7349163889884949, 'learning_rate': 5.33972821742606e-05, 'epoch': 0.93}\n",
      "{'loss': 0.0712, 'grad_norm': 0.7803711295127869, 'learning_rate': 5.331734612310152e-05, 'epoch': 0.93}\n",
      "{'loss': 0.074, 'grad_norm': 1.0595389604568481, 'learning_rate': 5.323741007194245e-05, 'epoch': 0.94}\n",
      "{'loss': 0.064, 'grad_norm': 1.2298667430877686, 'learning_rate': 5.315747402078337e-05, 'epoch': 0.94}\n",
      "{'loss': 0.0556, 'grad_norm': 0.5528449416160583, 'learning_rate': 5.30775379696243e-05, 'epoch': 0.94}\n",
      "{'loss': 0.0667, 'grad_norm': 0.6588577032089233, 'learning_rate': 5.299760191846523e-05, 'epoch': 0.94}\n",
      "{'loss': 0.0526, 'grad_norm': 0.6410828232765198, 'learning_rate': 5.291766586730615e-05, 'epoch': 0.94}\n",
      "{'loss': 0.0627, 'grad_norm': 0.5500788688659668, 'learning_rate': 5.283772981614709e-05, 'epoch': 0.94}\n",
      "{'loss': 0.0477, 'grad_norm': 0.6493114233016968, 'learning_rate': 5.275779376498802e-05, 'epoch': 0.94}\n",
      "{'loss': 0.0509, 'grad_norm': 0.49026229977607727, 'learning_rate': 5.267785771382894e-05, 'epoch': 0.95}\n",
      "{'loss': 0.0788, 'grad_norm': 0.5652905702590942, 'learning_rate': 5.259792166266987e-05, 'epoch': 0.95}\n",
      "{'loss': 0.0384, 'grad_norm': 0.34014299511909485, 'learning_rate': 5.251798561151079e-05, 'epoch': 0.95}\n",
      "{'loss': 0.0504, 'grad_norm': 0.5843249559402466, 'learning_rate': 5.243804956035172e-05, 'epoch': 0.95}\n",
      "{'loss': 0.0571, 'grad_norm': 0.5599485039710999, 'learning_rate': 5.2358113509192655e-05, 'epoch': 0.95}\n",
      "{'loss': 0.0755, 'grad_norm': 2.177640676498413, 'learning_rate': 5.2278177458033575e-05, 'epoch': 0.95}\n",
      "{'loss': 0.0501, 'grad_norm': 0.38811975717544556, 'learning_rate': 5.21982414068745e-05, 'epoch': 0.96}\n",
      "{'loss': 0.0546, 'grad_norm': 0.6156376004219055, 'learning_rate': 5.2118305355715436e-05, 'epoch': 0.96}\n",
      "{'loss': 0.0787, 'grad_norm': 0.7126067876815796, 'learning_rate': 5.2038369304556356e-05, 'epoch': 0.96}\n",
      "{'loss': 0.0452, 'grad_norm': 0.43783333897590637, 'learning_rate': 5.195843325339729e-05, 'epoch': 0.96}\n",
      "{'loss': 0.0612, 'grad_norm': 1.366147756576538, 'learning_rate': 5.187849720223821e-05, 'epoch': 0.96}\n",
      "{'loss': 0.0702, 'grad_norm': 0.5418728590011597, 'learning_rate': 5.179856115107914e-05, 'epoch': 0.96}\n",
      "{'loss': 0.038, 'grad_norm': 1.098196029663086, 'learning_rate': 5.171862509992007e-05, 'epoch': 0.97}\n",
      "{'loss': 0.0522, 'grad_norm': 0.5177148580551147, 'learning_rate': 5.163868904876099e-05, 'epoch': 0.97}\n",
      "{'loss': 0.0608, 'grad_norm': 0.6533651351928711, 'learning_rate': 5.1558752997601924e-05, 'epoch': 0.97}\n",
      "{'loss': 0.0639, 'grad_norm': 0.675078809261322, 'learning_rate': 5.1478816946442844e-05, 'epoch': 0.97}\n",
      "{'loss': 0.0561, 'grad_norm': 0.39297184348106384, 'learning_rate': 5.139888089528377e-05, 'epoch': 0.97}\n",
      "{'loss': 0.0548, 'grad_norm': 0.9260059595108032, 'learning_rate': 5.1318944844124705e-05, 'epoch': 0.97}\n",
      "{'loss': 0.0352, 'grad_norm': 0.5766023397445679, 'learning_rate': 5.1239008792965625e-05, 'epoch': 0.98}\n",
      "{'loss': 0.0536, 'grad_norm': 0.5116626024246216, 'learning_rate': 5.115907274180656e-05, 'epoch': 0.98}\n",
      "{'loss': 0.0545, 'grad_norm': 0.5665127038955688, 'learning_rate': 5.1079136690647486e-05, 'epoch': 0.98}\n",
      "{'loss': 0.0493, 'grad_norm': 0.4254784882068634, 'learning_rate': 5.0999200639488406e-05, 'epoch': 0.98}\n",
      "{'loss': 0.0593, 'grad_norm': 0.5704038739204407, 'learning_rate': 5.091926458832934e-05, 'epoch': 0.98}\n",
      "{'loss': 0.0449, 'grad_norm': 1.627787709236145, 'learning_rate': 5.083932853717026e-05, 'epoch': 0.98}\n",
      "{'loss': 0.0639, 'grad_norm': 0.8544600009918213, 'learning_rate': 5.075939248601119e-05, 'epoch': 0.98}\n",
      "{'loss': 0.0562, 'grad_norm': 0.6549184918403625, 'learning_rate': 5.067945643485213e-05, 'epoch': 0.99}\n",
      "{'loss': 0.0642, 'grad_norm': 0.5667918920516968, 'learning_rate': 5.059952038369305e-05, 'epoch': 0.99}\n",
      "{'loss': 0.0781, 'grad_norm': 0.7197718024253845, 'learning_rate': 5.0519584332533974e-05, 'epoch': 0.99}\n",
      "{'loss': 0.036, 'grad_norm': 0.5895481109619141, 'learning_rate': 5.043964828137491e-05, 'epoch': 0.99}\n",
      "{'loss': 0.065, 'grad_norm': 0.7298844456672668, 'learning_rate': 5.035971223021583e-05, 'epoch': 0.99}\n",
      "{'loss': 0.0562, 'grad_norm': 0.521664023399353, 'learning_rate': 5.027977617905676e-05, 'epoch': 0.99}\n",
      "{'loss': 0.0713, 'grad_norm': 0.494758665561676, 'learning_rate': 5.019984012789768e-05, 'epoch': 1.0}\n",
      "{'loss': 0.0424, 'grad_norm': 0.5401188731193542, 'learning_rate': 5.011990407673861e-05, 'epoch': 1.0}\n",
      "{'loss': 0.0538, 'grad_norm': 0.4455522894859314, 'learning_rate': 5.003996802557954e-05, 'epoch': 1.0}\n",
      "{'loss': 0.0615, 'grad_norm': 0.5631087422370911, 'learning_rate': 4.996003197442047e-05, 'epoch': 1.0}\n",
      "{'loss': 0.041, 'grad_norm': 0.6847413182258606, 'learning_rate': 4.9880095923261396e-05, 'epoch': 1.0}\n",
      "{'loss': 0.0179, 'grad_norm': 0.5287183523178101, 'learning_rate': 4.980015987210232e-05, 'epoch': 1.0}\n",
      "{'loss': 0.0287, 'grad_norm': 0.9301412105560303, 'learning_rate': 4.972022382094324e-05, 'epoch': 1.01}\n",
      "{'loss': 0.0145, 'grad_norm': 0.27009251713752747, 'learning_rate': 4.964028776978418e-05, 'epoch': 1.01}\n",
      "{'loss': 0.0365, 'grad_norm': 0.47944939136505127, 'learning_rate': 4.9560351718625104e-05, 'epoch': 1.01}\n",
      "{'loss': 0.0319, 'grad_norm': 0.8516848683357239, 'learning_rate': 4.948041566746603e-05, 'epoch': 1.01}\n",
      "{'loss': 0.0384, 'grad_norm': 0.43534615635871887, 'learning_rate': 4.940047961630696e-05, 'epoch': 1.01}\n",
      "{'loss': 0.0249, 'grad_norm': 0.649613618850708, 'learning_rate': 4.9320543565147885e-05, 'epoch': 1.01}\n",
      "{'loss': 0.018, 'grad_norm': 0.3666244447231293, 'learning_rate': 4.924060751398881e-05, 'epoch': 1.02}\n",
      "{'loss': 0.0261, 'grad_norm': 1.1832199096679688, 'learning_rate': 4.916067146282974e-05, 'epoch': 1.02}\n",
      "{'loss': 0.0131, 'grad_norm': 0.6771578788757324, 'learning_rate': 4.9080735411670665e-05, 'epoch': 1.02}\n",
      "{'loss': 0.0368, 'grad_norm': 0.5285253524780273, 'learning_rate': 4.90007993605116e-05, 'epoch': 1.02}\n",
      "{'loss': 0.0419, 'grad_norm': 0.3660021722316742, 'learning_rate': 4.892086330935252e-05, 'epoch': 1.02}\n",
      "{'loss': 0.0254, 'grad_norm': 0.4269741475582123, 'learning_rate': 4.8840927258193446e-05, 'epoch': 1.02}\n",
      "{'loss': 0.0256, 'grad_norm': 0.3553328514099121, 'learning_rate': 4.876099120703437e-05, 'epoch': 1.02}\n",
      "{'loss': 0.0262, 'grad_norm': 0.87602299451828, 'learning_rate': 4.868105515587531e-05, 'epoch': 1.03}\n",
      "{'loss': 0.0305, 'grad_norm': 0.4198824465274811, 'learning_rate': 4.8601119104716234e-05, 'epoch': 1.03}\n",
      "{'loss': 0.0329, 'grad_norm': 0.5374405980110168, 'learning_rate': 4.8521183053557154e-05, 'epoch': 1.03}\n",
      "{'loss': 0.0264, 'grad_norm': 0.8751195669174194, 'learning_rate': 4.844124700239808e-05, 'epoch': 1.03}\n",
      "{'loss': 0.0143, 'grad_norm': 0.4120596647262573, 'learning_rate': 4.836131095123901e-05, 'epoch': 1.03}\n",
      "{'loss': 0.0253, 'grad_norm': 0.8698753714561462, 'learning_rate': 4.828137490007994e-05, 'epoch': 1.03}\n",
      "{'loss': 0.0294, 'grad_norm': 0.4226374924182892, 'learning_rate': 4.820143884892087e-05, 'epoch': 1.04}\n",
      "{'loss': 0.0303, 'grad_norm': 0.7007140517234802, 'learning_rate': 4.812150279776179e-05, 'epoch': 1.04}\n",
      "{'loss': 0.0301, 'grad_norm': 1.2530748844146729, 'learning_rate': 4.8041566746602715e-05, 'epoch': 1.04}\n",
      "{'loss': 0.022, 'grad_norm': 0.953298032283783, 'learning_rate': 4.796163069544365e-05, 'epoch': 1.04}\n",
      "{'loss': 0.029, 'grad_norm': 0.4718042314052582, 'learning_rate': 4.7881694644284576e-05, 'epoch': 1.04}\n",
      "{'loss': 0.0351, 'grad_norm': 0.4844530522823334, 'learning_rate': 4.78017585931255e-05, 'epoch': 1.04}\n",
      "{'loss': 0.0197, 'grad_norm': 0.3418554663658142, 'learning_rate': 4.772182254196643e-05, 'epoch': 1.05}\n",
      "{'loss': 0.0273, 'grad_norm': 0.4120999872684479, 'learning_rate': 4.7641886490807356e-05, 'epoch': 1.05}\n",
      "{'loss': 0.0223, 'grad_norm': 0.31321775913238525, 'learning_rate': 4.7561950439648283e-05, 'epoch': 1.05}\n",
      "{'loss': 0.0272, 'grad_norm': 0.4611416459083557, 'learning_rate': 4.748201438848921e-05, 'epoch': 1.05}\n",
      "{'loss': 0.0253, 'grad_norm': 1.0129629373550415, 'learning_rate': 4.740207833733014e-05, 'epoch': 1.05}\n",
      "{'loss': 0.0193, 'grad_norm': 0.5318601131439209, 'learning_rate': 4.7322142286171064e-05, 'epoch': 1.05}\n",
      "{'loss': 0.0478, 'grad_norm': 0.5287376642227173, 'learning_rate': 4.724220623501199e-05, 'epoch': 1.06}\n",
      "{'loss': 0.017, 'grad_norm': 0.42551109194755554, 'learning_rate': 4.716227018385292e-05, 'epoch': 1.06}\n",
      "{'loss': 0.0208, 'grad_norm': 0.6102638840675354, 'learning_rate': 4.7082334132693845e-05, 'epoch': 1.06}\n",
      "{'loss': 0.0195, 'grad_norm': 0.331859827041626, 'learning_rate': 4.700239808153478e-05, 'epoch': 1.06}\n",
      "{'loss': 0.0239, 'grad_norm': 0.493918240070343, 'learning_rate': 4.6922462030375705e-05, 'epoch': 1.06}\n",
      "{'loss': 0.0294, 'grad_norm': 0.35988640785217285, 'learning_rate': 4.6842525979216626e-05, 'epoch': 1.06}\n",
      "{'loss': 0.0204, 'grad_norm': 0.4304344654083252, 'learning_rate': 4.676258992805755e-05, 'epoch': 1.06}\n",
      "{'loss': 0.0297, 'grad_norm': 0.9250891208648682, 'learning_rate': 4.6682653876898486e-05, 'epoch': 1.07}\n",
      "{'loss': 0.0328, 'grad_norm': 0.422658771276474, 'learning_rate': 4.660271782573941e-05, 'epoch': 1.07}\n",
      "{'loss': 0.0124, 'grad_norm': 0.29135861992836, 'learning_rate': 4.652278177458034e-05, 'epoch': 1.07}\n",
      "{'loss': 0.0146, 'grad_norm': 0.29189416766166687, 'learning_rate': 4.644284572342126e-05, 'epoch': 1.07}\n",
      "{'loss': 0.028, 'grad_norm': 0.45232510566711426, 'learning_rate': 4.6362909672262194e-05, 'epoch': 1.07}\n",
      "{'loss': 0.0267, 'grad_norm': 0.5496510863304138, 'learning_rate': 4.628297362110312e-05, 'epoch': 1.07}\n",
      "{'loss': 0.0247, 'grad_norm': 0.39011287689208984, 'learning_rate': 4.620303756994405e-05, 'epoch': 1.08}\n",
      "{'loss': 0.0092, 'grad_norm': 0.44941091537475586, 'learning_rate': 4.6123101518784975e-05, 'epoch': 1.08}\n",
      "{'loss': 0.0111, 'grad_norm': 0.33827927708625793, 'learning_rate': 4.60431654676259e-05, 'epoch': 1.08}\n",
      "{'loss': 0.0239, 'grad_norm': 0.40548378229141235, 'learning_rate': 4.596322941646683e-05, 'epoch': 1.08}\n",
      "{'loss': 0.0254, 'grad_norm': 0.30378982424736023, 'learning_rate': 4.5883293365307755e-05, 'epoch': 1.08}\n",
      "{'loss': 0.0137, 'grad_norm': 0.3201559782028198, 'learning_rate': 4.580335731414868e-05, 'epoch': 1.08}\n",
      "{'loss': 0.0205, 'grad_norm': 0.7224199175834656, 'learning_rate': 4.5723421262989616e-05, 'epoch': 1.09}\n",
      "{'loss': 0.0216, 'grad_norm': 0.37319380044937134, 'learning_rate': 4.5643485211830536e-05, 'epoch': 1.09}\n",
      "{'loss': 0.029, 'grad_norm': 1.2254137992858887, 'learning_rate': 4.556354916067146e-05, 'epoch': 1.09}\n",
      "{'loss': 0.0245, 'grad_norm': 0.5486639142036438, 'learning_rate': 4.548361310951239e-05, 'epoch': 1.09}\n",
      "{'loss': 0.0205, 'grad_norm': 0.4125780761241913, 'learning_rate': 4.5403677058353324e-05, 'epoch': 1.09}\n",
      "{'loss': 0.0205, 'grad_norm': 0.3928787410259247, 'learning_rate': 4.532374100719425e-05, 'epoch': 1.09}\n",
      "{'loss': 0.0269, 'grad_norm': 1.6134973764419556, 'learning_rate': 4.524380495603517e-05, 'epoch': 1.1}\n",
      "{'loss': 0.0189, 'grad_norm': 0.653297483921051, 'learning_rate': 4.51638689048761e-05, 'epoch': 1.1}\n",
      "{'loss': 0.0365, 'grad_norm': 0.5986780524253845, 'learning_rate': 4.5083932853717024e-05, 'epoch': 1.1}\n",
      "{'loss': 0.03, 'grad_norm': 0.913679838180542, 'learning_rate': 4.500399680255796e-05, 'epoch': 1.1}\n",
      "{'loss': 0.0252, 'grad_norm': 0.5053300857543945, 'learning_rate': 4.4924060751398885e-05, 'epoch': 1.1}\n",
      "{'loss': 0.0234, 'grad_norm': 1.621039867401123, 'learning_rate': 4.484412470023981e-05, 'epoch': 1.1}\n",
      "{'loss': 0.0159, 'grad_norm': 0.5608965158462524, 'learning_rate': 4.476418864908073e-05, 'epoch': 1.1}\n",
      "{'loss': 0.0262, 'grad_norm': 0.5578237175941467, 'learning_rate': 4.4684252597921666e-05, 'epoch': 1.11}\n",
      "{'loss': 0.0158, 'grad_norm': 0.5234666466712952, 'learning_rate': 4.460431654676259e-05, 'epoch': 1.11}\n",
      "{'loss': 0.0199, 'grad_norm': 0.509908139705658, 'learning_rate': 4.452438049560352e-05, 'epoch': 1.11}\n",
      "{'loss': 0.0264, 'grad_norm': 0.6101712584495544, 'learning_rate': 4.4444444444444447e-05, 'epoch': 1.11}\n",
      "{'loss': 0.0236, 'grad_norm': 0.3586570918560028, 'learning_rate': 4.4364508393285373e-05, 'epoch': 1.11}\n",
      "{'loss': 0.0159, 'grad_norm': 0.42900779843330383, 'learning_rate': 4.42845723421263e-05, 'epoch': 1.11}\n",
      "{'loss': 0.0086, 'grad_norm': 0.385468989610672, 'learning_rate': 4.420463629096723e-05, 'epoch': 1.12}\n",
      "{'loss': 0.0205, 'grad_norm': 0.3932565152645111, 'learning_rate': 4.4124700239808154e-05, 'epoch': 1.12}\n",
      "{'loss': 0.0265, 'grad_norm': 0.3182232677936554, 'learning_rate': 4.404476418864909e-05, 'epoch': 1.12}\n",
      "{'loss': 0.0262, 'grad_norm': 0.9335189461708069, 'learning_rate': 4.396482813749001e-05, 'epoch': 1.12}\n",
      "{'loss': 0.022, 'grad_norm': 0.5950663089752197, 'learning_rate': 4.3884892086330935e-05, 'epoch': 1.12}\n",
      "{'loss': 0.0177, 'grad_norm': 0.4576541483402252, 'learning_rate': 4.380495603517186e-05, 'epoch': 1.12}\n",
      "{'loss': 0.0334, 'grad_norm': 0.5345402359962463, 'learning_rate': 4.3725019984012796e-05, 'epoch': 1.13}\n",
      "{'loss': 0.0247, 'grad_norm': 0.31151774525642395, 'learning_rate': 4.364508393285372e-05, 'epoch': 1.13}\n",
      "{'loss': 0.0182, 'grad_norm': 0.353739470243454, 'learning_rate': 4.356514788169464e-05, 'epoch': 1.13}\n",
      "{'loss': 0.0236, 'grad_norm': 0.4446726143360138, 'learning_rate': 4.348521183053557e-05, 'epoch': 1.13}\n",
      "{'loss': 0.0204, 'grad_norm': 0.2781347632408142, 'learning_rate': 4.34052757793765e-05, 'epoch': 1.13}\n",
      "{'loss': 0.0227, 'grad_norm': 0.7533224821090698, 'learning_rate': 4.332533972821743e-05, 'epoch': 1.13}\n",
      "{'loss': 0.0196, 'grad_norm': 0.4129505455493927, 'learning_rate': 4.324540367705836e-05, 'epoch': 1.14}\n",
      "{'loss': 0.0229, 'grad_norm': 0.23044534027576447, 'learning_rate': 4.3165467625899284e-05, 'epoch': 1.14}\n",
      "{'loss': 0.0292, 'grad_norm': 0.4750588536262512, 'learning_rate': 4.308553157474021e-05, 'epoch': 1.14}\n",
      "{'loss': 0.0441, 'grad_norm': 0.5709593296051025, 'learning_rate': 4.300559552358114e-05, 'epoch': 1.14}\n",
      "{'loss': 0.0144, 'grad_norm': 0.4702357053756714, 'learning_rate': 4.2925659472422065e-05, 'epoch': 1.14}\n",
      "{'loss': 0.0308, 'grad_norm': 0.3587172329425812, 'learning_rate': 4.284572342126299e-05, 'epoch': 1.14}\n",
      "{'loss': 0.0115, 'grad_norm': 0.41556882858276367, 'learning_rate': 4.276578737010392e-05, 'epoch': 1.14}\n",
      "{'loss': 0.0174, 'grad_norm': 0.3280688226222992, 'learning_rate': 4.2685851318944845e-05, 'epoch': 1.15}\n",
      "{'loss': 0.0135, 'grad_norm': 0.4920525550842285, 'learning_rate': 4.260591526778577e-05, 'epoch': 1.15}\n",
      "{'loss': 0.0192, 'grad_norm': 0.38419783115386963, 'learning_rate': 4.25259792166267e-05, 'epoch': 1.15}\n",
      "{'loss': 0.0283, 'grad_norm': 1.1598191261291504, 'learning_rate': 4.244604316546763e-05, 'epoch': 1.15}\n",
      "{'loss': 0.0251, 'grad_norm': 0.4408671259880066, 'learning_rate': 4.236610711430855e-05, 'epoch': 1.15}\n",
      "{'loss': 0.0244, 'grad_norm': 0.4240458309650421, 'learning_rate': 4.228617106314948e-05, 'epoch': 1.15}\n",
      "{'loss': 0.0321, 'grad_norm': 0.39244571328163147, 'learning_rate': 4.220623501199041e-05, 'epoch': 1.16}\n",
      "{'loss': 0.0247, 'grad_norm': 0.7506178021430969, 'learning_rate': 4.212629896083134e-05, 'epoch': 1.16}\n",
      "{'loss': 0.0199, 'grad_norm': 0.41039523482322693, 'learning_rate': 4.204636290967227e-05, 'epoch': 1.16}\n",
      "{'loss': 0.0265, 'grad_norm': 0.7448879480361938, 'learning_rate': 4.1966426858513194e-05, 'epoch': 1.16}\n",
      "{'loss': 0.0143, 'grad_norm': 1.0476657152175903, 'learning_rate': 4.1886490807354115e-05, 'epoch': 1.16}\n",
      "{'loss': 0.0185, 'grad_norm': 0.8846519589424133, 'learning_rate': 4.180655475619504e-05, 'epoch': 1.16}\n",
      "{'loss': 0.0436, 'grad_norm': 0.6433863639831543, 'learning_rate': 4.1726618705035975e-05, 'epoch': 1.17}\n",
      "{'loss': 0.038, 'grad_norm': 1.4784187078475952, 'learning_rate': 4.16466826538769e-05, 'epoch': 1.17}\n",
      "{'loss': 0.0151, 'grad_norm': 0.5173318386077881, 'learning_rate': 4.156674660271783e-05, 'epoch': 1.17}\n",
      "{'loss': 0.0227, 'grad_norm': 0.5092050433158875, 'learning_rate': 4.148681055155875e-05, 'epoch': 1.17}\n",
      "{'loss': 0.0195, 'grad_norm': 0.5438882112503052, 'learning_rate': 4.140687450039968e-05, 'epoch': 1.17}\n",
      "{'loss': 0.0207, 'grad_norm': 0.7900716662406921, 'learning_rate': 4.132693844924061e-05, 'epoch': 1.17}\n",
      "{'loss': 0.0312, 'grad_norm': 0.4282647967338562, 'learning_rate': 4.124700239808154e-05, 'epoch': 1.18}\n",
      "{'loss': 0.0288, 'grad_norm': 0.6840556263923645, 'learning_rate': 4.1167066346922464e-05, 'epoch': 1.18}\n",
      "{'loss': 0.0219, 'grad_norm': 0.5251765847206116, 'learning_rate': 4.108713029576339e-05, 'epoch': 1.18}\n",
      "{'loss': 0.0261, 'grad_norm': 0.44110724329948425, 'learning_rate': 4.100719424460432e-05, 'epoch': 1.18}\n",
      "{'loss': 0.036, 'grad_norm': 0.4532192349433899, 'learning_rate': 4.0927258193445244e-05, 'epoch': 1.18}\n",
      "{'loss': 0.0169, 'grad_norm': 0.4638381600379944, 'learning_rate': 4.084732214228617e-05, 'epoch': 1.18}\n",
      "{'loss': 0.035, 'grad_norm': 0.5463424921035767, 'learning_rate': 4.0767386091127105e-05, 'epoch': 1.18}\n",
      "{'loss': 0.0182, 'grad_norm': 0.4507199227809906, 'learning_rate': 4.0687450039968025e-05, 'epoch': 1.19}\n",
      "{'loss': 0.0144, 'grad_norm': 0.34761855006217957, 'learning_rate': 4.060751398880895e-05, 'epoch': 1.19}\n",
      "{'loss': 0.022, 'grad_norm': 0.3298240005970001, 'learning_rate': 4.052757793764988e-05, 'epoch': 1.19}\n",
      "{'loss': 0.0223, 'grad_norm': 0.3689035475254059, 'learning_rate': 4.044764188649081e-05, 'epoch': 1.19}\n",
      "{'loss': 0.0249, 'grad_norm': 0.49151670932769775, 'learning_rate': 4.036770583533174e-05, 'epoch': 1.19}\n",
      "{'loss': 0.0243, 'grad_norm': 0.5315487384796143, 'learning_rate': 4.0287769784172666e-05, 'epoch': 1.19}\n",
      "{'loss': 0.0243, 'grad_norm': 0.5350185632705688, 'learning_rate': 4.0207833733013587e-05, 'epoch': 1.2}\n",
      "{'loss': 0.0233, 'grad_norm': 0.6012100577354431, 'learning_rate': 4.012789768185452e-05, 'epoch': 1.2}\n",
      "{'loss': 0.014, 'grad_norm': 0.3971221148967743, 'learning_rate': 4.004796163069545e-05, 'epoch': 1.2}\n",
      "{'loss': 0.0334, 'grad_norm': 0.6816110610961914, 'learning_rate': 3.9968025579536374e-05, 'epoch': 1.2}\n",
      "{'loss': 0.031, 'grad_norm': 0.3507513403892517, 'learning_rate': 3.98880895283773e-05, 'epoch': 1.2}\n",
      "{'loss': 0.0236, 'grad_norm': 0.40639933943748474, 'learning_rate': 3.980815347721823e-05, 'epoch': 1.2}\n",
      "{'loss': 0.0172, 'grad_norm': 0.33935534954071045, 'learning_rate': 3.9728217426059155e-05, 'epoch': 1.21}\n",
      "{'loss': 0.024, 'grad_norm': 0.5604596734046936, 'learning_rate': 3.964828137490008e-05, 'epoch': 1.21}\n",
      "{'loss': 0.0304, 'grad_norm': 0.45704346895217896, 'learning_rate': 3.956834532374101e-05, 'epoch': 1.21}\n",
      "{'loss': 0.0258, 'grad_norm': 1.17637038230896, 'learning_rate': 3.9488409272581936e-05, 'epoch': 1.21}\n",
      "{'loss': 0.0256, 'grad_norm': 0.6463652849197388, 'learning_rate': 3.940847322142286e-05, 'epoch': 1.21}\n",
      "{'loss': 0.0257, 'grad_norm': 0.4923945367336273, 'learning_rate': 3.932853717026379e-05, 'epoch': 1.21}\n",
      "{'loss': 0.0293, 'grad_norm': 0.594157338142395, 'learning_rate': 3.9248601119104716e-05, 'epoch': 1.22}\n",
      "{'loss': 0.0288, 'grad_norm': 0.5554280877113342, 'learning_rate': 3.916866506794565e-05, 'epoch': 1.22}\n",
      "{'loss': 0.0239, 'grad_norm': 0.6706299185752869, 'learning_rate': 3.908872901678658e-05, 'epoch': 1.22}\n",
      "{'loss': 0.0131, 'grad_norm': 0.3482959270477295, 'learning_rate': 3.90087929656275e-05, 'epoch': 1.22}\n",
      "{'loss': 0.0262, 'grad_norm': 0.7003269195556641, 'learning_rate': 3.8928856914468424e-05, 'epoch': 1.22}\n",
      "{'loss': 0.0256, 'grad_norm': 1.0856437683105469, 'learning_rate': 3.884892086330936e-05, 'epoch': 1.22}\n",
      "{'loss': 0.0327, 'grad_norm': 0.49408361315727234, 'learning_rate': 3.8768984812150285e-05, 'epoch': 1.22}\n",
      "{'loss': 0.0132, 'grad_norm': 0.2793912887573242, 'learning_rate': 3.868904876099121e-05, 'epoch': 1.23}\n",
      "{'loss': 0.019, 'grad_norm': 0.46100419759750366, 'learning_rate': 3.860911270983213e-05, 'epoch': 1.23}\n",
      "{'loss': 0.0188, 'grad_norm': 0.45813754200935364, 'learning_rate': 3.852917665867306e-05, 'epoch': 1.23}\n",
      "{'loss': 0.0159, 'grad_norm': 0.4326803684234619, 'learning_rate': 3.844924060751399e-05, 'epoch': 1.23}\n",
      "{'loss': 0.0284, 'grad_norm': 0.4651152491569519, 'learning_rate': 3.836930455635492e-05, 'epoch': 1.23}\n",
      "{'loss': 0.0378, 'grad_norm': 0.7285292744636536, 'learning_rate': 3.8289368505195846e-05, 'epoch': 1.23}\n",
      "{'loss': 0.0201, 'grad_norm': 0.47371143102645874, 'learning_rate': 3.820943245403677e-05, 'epoch': 1.24}\n",
      "{'loss': 0.0283, 'grad_norm': 0.4518541395664215, 'learning_rate': 3.81294964028777e-05, 'epoch': 1.24}\n",
      "{'loss': 0.0222, 'grad_norm': 0.5686517953872681, 'learning_rate': 3.804956035171863e-05, 'epoch': 1.24}\n",
      "{'loss': 0.0257, 'grad_norm': 0.49241161346435547, 'learning_rate': 3.7969624300559554e-05, 'epoch': 1.24}\n",
      "{'loss': 0.0323, 'grad_norm': 0.43748220801353455, 'learning_rate': 3.788968824940048e-05, 'epoch': 1.24}\n",
      "{'loss': 0.0274, 'grad_norm': 0.6303848624229431, 'learning_rate': 3.780975219824141e-05, 'epoch': 1.24}\n",
      "{'loss': 0.028, 'grad_norm': 0.3563327193260193, 'learning_rate': 3.7729816147082334e-05, 'epoch': 1.25}\n",
      "{'loss': 0.0252, 'grad_norm': 0.3902944326400757, 'learning_rate': 3.764988009592326e-05, 'epoch': 1.25}\n",
      "{'loss': 0.0206, 'grad_norm': 0.4310697913169861, 'learning_rate': 3.756994404476419e-05, 'epoch': 1.25}\n",
      "{'loss': 0.0367, 'grad_norm': 0.6766073107719421, 'learning_rate': 3.749000799360512e-05, 'epoch': 1.25}\n",
      "{'loss': 0.0182, 'grad_norm': 0.35761919617652893, 'learning_rate': 3.741007194244605e-05, 'epoch': 1.25}\n",
      "{'loss': 0.016, 'grad_norm': 0.37675946950912476, 'learning_rate': 3.733013589128697e-05, 'epoch': 1.25}\n",
      "{'loss': 0.0197, 'grad_norm': 0.3611992597579956, 'learning_rate': 3.7250199840127896e-05, 'epoch': 1.25}\n",
      "{'loss': 0.0148, 'grad_norm': 0.5325806140899658, 'learning_rate': 3.717026378896883e-05, 'epoch': 1.26}\n",
      "{'loss': 0.0259, 'grad_norm': 0.5942975878715515, 'learning_rate': 3.7090327737809756e-05, 'epoch': 1.26}\n",
      "{'loss': 0.0261, 'grad_norm': 0.4717179834842682, 'learning_rate': 3.701039168665068e-05, 'epoch': 1.26}\n",
      "{'loss': 0.0218, 'grad_norm': 0.37736231088638306, 'learning_rate': 3.6930455635491604e-05, 'epoch': 1.26}\n",
      "{'loss': 0.0127, 'grad_norm': 0.31507739424705505, 'learning_rate': 3.685051958433254e-05, 'epoch': 1.26}\n",
      "{'loss': 0.0212, 'grad_norm': 0.5066019296646118, 'learning_rate': 3.6770583533173464e-05, 'epoch': 1.26}\n",
      "{'loss': 0.0208, 'grad_norm': 0.31121593713760376, 'learning_rate': 3.669064748201439e-05, 'epoch': 1.27}\n",
      "{'loss': 0.0177, 'grad_norm': 0.2595580518245697, 'learning_rate': 3.661071143085532e-05, 'epoch': 1.27}\n",
      "{'loss': 0.0194, 'grad_norm': 0.5380244851112366, 'learning_rate': 3.6530775379696245e-05, 'epoch': 1.27}\n",
      "{'loss': 0.0254, 'grad_norm': 0.507805585861206, 'learning_rate': 3.645083932853717e-05, 'epoch': 1.27}\n",
      "{'loss': 0.0353, 'grad_norm': 1.3780133724212646, 'learning_rate': 3.63709032773781e-05, 'epoch': 1.27}\n",
      "{'loss': 0.0193, 'grad_norm': 0.42560359835624695, 'learning_rate': 3.6290967226219026e-05, 'epoch': 1.27}\n",
      "{'loss': 0.0225, 'grad_norm': 0.4676815867424011, 'learning_rate': 3.621103117505996e-05, 'epoch': 1.28}\n",
      "{'loss': 0.039, 'grad_norm': 0.6196640133857727, 'learning_rate': 3.613109512390088e-05, 'epoch': 1.28}\n",
      "{'loss': 0.0236, 'grad_norm': 0.5161320567131042, 'learning_rate': 3.6051159072741806e-05, 'epoch': 1.28}\n",
      "{'loss': 0.0214, 'grad_norm': 0.4733777940273285, 'learning_rate': 3.597122302158273e-05, 'epoch': 1.28}\n",
      "{'loss': 0.0254, 'grad_norm': 0.26311057806015015, 'learning_rate': 3.589128697042367e-05, 'epoch': 1.28}\n",
      "{'loss': 0.0253, 'grad_norm': 0.509296178817749, 'learning_rate': 3.5811350919264594e-05, 'epoch': 1.28}\n",
      "{'loss': 0.0221, 'grad_norm': 0.4163215160369873, 'learning_rate': 3.5731414868105514e-05, 'epoch': 1.29}\n",
      "{'loss': 0.0239, 'grad_norm': 0.4702082872390747, 'learning_rate': 3.565147881694644e-05, 'epoch': 1.29}\n",
      "{'loss': 0.0207, 'grad_norm': 0.4520875811576843, 'learning_rate': 3.5571542765787375e-05, 'epoch': 1.29}\n",
      "{'loss': 0.0318, 'grad_norm': 0.6006647944450378, 'learning_rate': 3.54916067146283e-05, 'epoch': 1.29}\n",
      "{'loss': 0.0217, 'grad_norm': 0.399152934551239, 'learning_rate': 3.541167066346923e-05, 'epoch': 1.29}\n",
      "{'loss': 0.0352, 'grad_norm': 0.6666418313980103, 'learning_rate': 3.5331734612310155e-05, 'epoch': 1.29}\n",
      "{'loss': 0.0172, 'grad_norm': 0.4346016049385071, 'learning_rate': 3.5251798561151075e-05, 'epoch': 1.29}\n",
      "{'loss': 0.0132, 'grad_norm': 0.4840339422225952, 'learning_rate': 3.517186250999201e-05, 'epoch': 1.3}\n",
      "{'loss': 0.0266, 'grad_norm': 0.5793954133987427, 'learning_rate': 3.5091926458832936e-05, 'epoch': 1.3}\n",
      "{'loss': 0.0326, 'grad_norm': 0.47527483105659485, 'learning_rate': 3.501199040767386e-05, 'epoch': 1.3}\n",
      "{'loss': 0.0219, 'grad_norm': 0.429511159658432, 'learning_rate': 3.493205435651479e-05, 'epoch': 1.3}\n",
      "{'loss': 0.0191, 'grad_norm': 0.5361905694007874, 'learning_rate': 3.485211830535572e-05, 'epoch': 1.3}\n",
      "{'loss': 0.0259, 'grad_norm': 0.4646962583065033, 'learning_rate': 3.4772182254196644e-05, 'epoch': 1.3}\n",
      "{'loss': 0.012, 'grad_norm': 0.26444098353385925, 'learning_rate': 3.469224620303757e-05, 'epoch': 1.31}\n",
      "{'loss': 0.0226, 'grad_norm': 0.36689624190330505, 'learning_rate': 3.46123101518785e-05, 'epoch': 1.31}\n",
      "{'loss': 0.0109, 'grad_norm': 0.30123642086982727, 'learning_rate': 3.453237410071943e-05, 'epoch': 1.31}\n",
      "{'loss': 0.026, 'grad_norm': 0.3763105273246765, 'learning_rate': 3.445243804956035e-05, 'epoch': 1.31}\n",
      "{'loss': 0.0294, 'grad_norm': 0.416286826133728, 'learning_rate': 3.437250199840128e-05, 'epoch': 1.31}\n",
      "{'loss': 0.0218, 'grad_norm': 0.4024627208709717, 'learning_rate': 3.4292565947242205e-05, 'epoch': 1.31}\n",
      "{'loss': 0.0263, 'grad_norm': 0.44649386405944824, 'learning_rate': 3.421262989608314e-05, 'epoch': 1.32}\n",
      "{'loss': 0.0215, 'grad_norm': 0.5355838537216187, 'learning_rate': 3.4132693844924066e-05, 'epoch': 1.32}\n",
      "{'loss': 0.0125, 'grad_norm': 0.3646029233932495, 'learning_rate': 3.4052757793764986e-05, 'epoch': 1.32}\n",
      "{'loss': 0.0188, 'grad_norm': 0.2933557331562042, 'learning_rate': 3.397282174260591e-05, 'epoch': 1.32}\n",
      "{'loss': 0.0185, 'grad_norm': 0.33661940693855286, 'learning_rate': 3.3892885691446847e-05, 'epoch': 1.32}\n",
      "{'loss': 0.0173, 'grad_norm': 0.33166205883026123, 'learning_rate': 3.3812949640287773e-05, 'epoch': 1.32}\n",
      "{'loss': 0.0436, 'grad_norm': 1.0081026554107666, 'learning_rate': 3.37330135891287e-05, 'epoch': 1.33}\n",
      "{'loss': 0.0254, 'grad_norm': 0.4471149146556854, 'learning_rate': 3.365307753796963e-05, 'epoch': 1.33}\n",
      "{'loss': 0.0355, 'grad_norm': 0.8842087984085083, 'learning_rate': 3.3573141486810554e-05, 'epoch': 1.33}\n",
      "{'loss': 0.0306, 'grad_norm': 0.3236149549484253, 'learning_rate': 3.349320543565148e-05, 'epoch': 1.33}\n",
      "{'loss': 0.0134, 'grad_norm': 0.8339436650276184, 'learning_rate': 3.341326938449241e-05, 'epoch': 1.33}\n",
      "{'loss': 0.0239, 'grad_norm': 0.30388346314430237, 'learning_rate': 3.3333333333333335e-05, 'epoch': 1.33}\n",
      "{'loss': 0.0346, 'grad_norm': 0.3616926372051239, 'learning_rate': 3.325339728217426e-05, 'epoch': 1.33}\n",
      "{'loss': 0.0279, 'grad_norm': 0.66066575050354, 'learning_rate': 3.317346123101519e-05, 'epoch': 1.34}\n",
      "{'loss': 0.0197, 'grad_norm': 0.5553956031799316, 'learning_rate': 3.3093525179856116e-05, 'epoch': 1.34}\n",
      "{'loss': 0.0232, 'grad_norm': 0.4710860252380371, 'learning_rate': 3.301358912869704e-05, 'epoch': 1.34}\n",
      "{'loss': 0.0111, 'grad_norm': 0.3135545551776886, 'learning_rate': 3.2933653077537976e-05, 'epoch': 1.34}\n",
      "{'loss': 0.0312, 'grad_norm': 0.7538835406303406, 'learning_rate': 3.2853717026378896e-05, 'epoch': 1.34}\n",
      "{'loss': 0.028, 'grad_norm': 0.5290518403053284, 'learning_rate': 3.277378097521982e-05, 'epoch': 1.34}\n",
      "{'loss': 0.0205, 'grad_norm': 0.42004016041755676, 'learning_rate': 3.269384492406075e-05, 'epoch': 1.35}\n",
      "{'loss': 0.0268, 'grad_norm': 1.0534192323684692, 'learning_rate': 3.2613908872901684e-05, 'epoch': 1.35}\n",
      "{'loss': 0.0371, 'grad_norm': 0.8405474424362183, 'learning_rate': 3.253397282174261e-05, 'epoch': 1.35}\n",
      "{'loss': 0.0124, 'grad_norm': 0.3935258686542511, 'learning_rate': 3.245403677058354e-05, 'epoch': 1.35}\n",
      "{'loss': 0.0173, 'grad_norm': 0.42354026436805725, 'learning_rate': 3.237410071942446e-05, 'epoch': 1.35}\n",
      "{'loss': 0.0114, 'grad_norm': 0.3991904854774475, 'learning_rate': 3.229416466826539e-05, 'epoch': 1.35}\n",
      "{'loss': 0.0192, 'grad_norm': 0.7428394556045532, 'learning_rate': 3.221422861710632e-05, 'epoch': 1.36}\n",
      "{'loss': 0.0229, 'grad_norm': 0.3696735203266144, 'learning_rate': 3.2134292565947245e-05, 'epoch': 1.36}\n",
      "{'loss': 0.0184, 'grad_norm': 0.4127354621887207, 'learning_rate': 3.205435651478817e-05, 'epoch': 1.36}\n",
      "{'loss': 0.0234, 'grad_norm': 0.5125582814216614, 'learning_rate': 3.197442046362909e-05, 'epoch': 1.36}\n",
      "{'loss': 0.0474, 'grad_norm': 1.5449621677398682, 'learning_rate': 3.1894484412470026e-05, 'epoch': 1.36}\n",
      "{'loss': 0.0292, 'grad_norm': 0.6721912026405334, 'learning_rate': 3.181454836131095e-05, 'epoch': 1.36}\n",
      "{'loss': 0.0199, 'grad_norm': 0.4779186546802521, 'learning_rate': 3.173461231015188e-05, 'epoch': 1.37}\n",
      "{'loss': 0.0261, 'grad_norm': 0.5775309205055237, 'learning_rate': 3.165467625899281e-05, 'epoch': 1.37}\n",
      "{'loss': 0.024, 'grad_norm': 0.5141430497169495, 'learning_rate': 3.1574740207833734e-05, 'epoch': 1.37}\n",
      "{'loss': 0.0249, 'grad_norm': 0.3804638087749481, 'learning_rate': 3.149480415667466e-05, 'epoch': 1.37}\n",
      "{'loss': 0.0208, 'grad_norm': 0.49031636118888855, 'learning_rate': 3.141486810551559e-05, 'epoch': 1.37}\n",
      "{'loss': 0.034, 'grad_norm': 0.42678362131118774, 'learning_rate': 3.1334932054356515e-05, 'epoch': 1.37}\n",
      "{'loss': 0.0175, 'grad_norm': 0.5355017185211182, 'learning_rate': 3.125499600319745e-05, 'epoch': 1.37}\n",
      "{'loss': 0.0364, 'grad_norm': 0.505398690700531, 'learning_rate': 3.117505995203837e-05, 'epoch': 1.38}\n",
      "{'loss': 0.0143, 'grad_norm': 1.4317249059677124, 'learning_rate': 3.1095123900879295e-05, 'epoch': 1.38}\n",
      "{'loss': 0.0305, 'grad_norm': 0.42867356538772583, 'learning_rate': 3.101518784972022e-05, 'epoch': 1.38}\n",
      "{'loss': 0.0188, 'grad_norm': 0.35450080037117004, 'learning_rate': 3.0935251798561156e-05, 'epoch': 1.38}\n",
      "{'loss': 0.0254, 'grad_norm': 0.6422426700592041, 'learning_rate': 3.085531574740208e-05, 'epoch': 1.38}\n",
      "{'loss': 0.0193, 'grad_norm': 0.556929349899292, 'learning_rate': 3.077537969624301e-05, 'epoch': 1.38}\n",
      "{'loss': 0.0193, 'grad_norm': 0.5056114792823792, 'learning_rate': 3.069544364508393e-05, 'epoch': 1.39}\n",
      "{'loss': 0.0206, 'grad_norm': 0.5080382823944092, 'learning_rate': 3.0615507593924864e-05, 'epoch': 1.39}\n",
      "{'loss': 0.0137, 'grad_norm': 0.22796973586082458, 'learning_rate': 3.053557154276579e-05, 'epoch': 1.39}\n",
      "{'loss': 0.0279, 'grad_norm': 0.4528999924659729, 'learning_rate': 3.0455635491606714e-05, 'epoch': 1.39}\n",
      "{'loss': 0.0159, 'grad_norm': 0.4193085730075836, 'learning_rate': 3.037569944044764e-05, 'epoch': 1.39}\n",
      "{'loss': 0.0212, 'grad_norm': 0.5581764578819275, 'learning_rate': 3.029576338928857e-05, 'epoch': 1.39}\n",
      "{'loss': 0.0209, 'grad_norm': 0.36489415168762207, 'learning_rate': 3.0215827338129498e-05, 'epoch': 1.4}\n",
      "{'loss': 0.0207, 'grad_norm': 0.2922097146511078, 'learning_rate': 3.0135891286970425e-05, 'epoch': 1.4}\n",
      "{'loss': 0.0307, 'grad_norm': 0.49075329303741455, 'learning_rate': 3.0055955235811352e-05, 'epoch': 1.4}\n",
      "{'loss': 0.018, 'grad_norm': 0.39183950424194336, 'learning_rate': 2.9976019184652282e-05, 'epoch': 1.4}\n",
      "{'loss': 0.0235, 'grad_norm': 0.7304163575172424, 'learning_rate': 2.989608313349321e-05, 'epoch': 1.4}\n",
      "{'loss': 0.0185, 'grad_norm': 0.2376604527235031, 'learning_rate': 2.9816147082334133e-05, 'epoch': 1.4}\n",
      "{'loss': 0.0253, 'grad_norm': 0.48820921778678894, 'learning_rate': 2.973621103117506e-05, 'epoch': 1.41}\n",
      "{'loss': 0.0192, 'grad_norm': 0.42520710825920105, 'learning_rate': 2.965627498001599e-05, 'epoch': 1.41}\n",
      "{'loss': 0.0327, 'grad_norm': 0.5598158240318298, 'learning_rate': 2.9576338928856917e-05, 'epoch': 1.41}\n",
      "{'loss': 0.0214, 'grad_norm': 0.5075490474700928, 'learning_rate': 2.9496402877697844e-05, 'epoch': 1.41}\n",
      "{'loss': 0.0205, 'grad_norm': 0.83536297082901, 'learning_rate': 2.9416466826538767e-05, 'epoch': 1.41}\n",
      "{'loss': 0.0335, 'grad_norm': 0.6665459871292114, 'learning_rate': 2.93365307753797e-05, 'epoch': 1.41}\n",
      "{'loss': 0.0144, 'grad_norm': 0.4184449017047882, 'learning_rate': 2.9256594724220628e-05, 'epoch': 1.41}\n",
      "{'loss': 0.0195, 'grad_norm': 0.5012692213058472, 'learning_rate': 2.917665867306155e-05, 'epoch': 1.42}\n",
      "{'loss': 0.0201, 'grad_norm': 0.7545201778411865, 'learning_rate': 2.9096722621902478e-05, 'epoch': 1.42}\n",
      "{'loss': 0.022, 'grad_norm': 0.29036185145378113, 'learning_rate': 2.9016786570743405e-05, 'epoch': 1.42}\n",
      "{'loss': 0.0071, 'grad_norm': 0.2515428364276886, 'learning_rate': 2.8936850519584335e-05, 'epoch': 1.42}\n",
      "{'loss': 0.0294, 'grad_norm': 0.8511113524436951, 'learning_rate': 2.8856914468425262e-05, 'epoch': 1.42}\n",
      "{'loss': 0.0284, 'grad_norm': 0.3324054777622223, 'learning_rate': 2.8776978417266186e-05, 'epoch': 1.42}\n",
      "{'loss': 0.027, 'grad_norm': 0.20519985258579254, 'learning_rate': 2.8697042366107113e-05, 'epoch': 1.43}\n",
      "{'loss': 0.0135, 'grad_norm': 0.6560011506080627, 'learning_rate': 2.8617106314948043e-05, 'epoch': 1.43}\n",
      "{'loss': 0.031, 'grad_norm': 0.46106359362602234, 'learning_rate': 2.853717026378897e-05, 'epoch': 1.43}\n",
      "{'loss': 0.0229, 'grad_norm': 0.48202216625213623, 'learning_rate': 2.8457234212629897e-05, 'epoch': 1.43}\n",
      "{'loss': 0.0282, 'grad_norm': 0.5667368173599243, 'learning_rate': 2.8377298161470824e-05, 'epoch': 1.43}\n",
      "{'loss': 0.0217, 'grad_norm': 0.3374207019805908, 'learning_rate': 2.8297362110311754e-05, 'epoch': 1.43}\n",
      "{'loss': 0.0155, 'grad_norm': 0.3746536672115326, 'learning_rate': 2.821742605915268e-05, 'epoch': 1.44}\n",
      "{'loss': 0.0219, 'grad_norm': 0.47592616081237793, 'learning_rate': 2.8137490007993605e-05, 'epoch': 1.44}\n",
      "{'loss': 0.0225, 'grad_norm': 0.38480156660079956, 'learning_rate': 2.805755395683453e-05, 'epoch': 1.44}\n",
      "{'loss': 0.0269, 'grad_norm': 0.6143512725830078, 'learning_rate': 2.7977617905675462e-05, 'epoch': 1.44}\n",
      "{'loss': 0.0201, 'grad_norm': 0.4768025875091553, 'learning_rate': 2.789768185451639e-05, 'epoch': 1.44}\n",
      "{'loss': 0.0188, 'grad_norm': 0.44906729459762573, 'learning_rate': 2.7817745803357316e-05, 'epoch': 1.44}\n",
      "{'loss': 0.0279, 'grad_norm': 1.6969811916351318, 'learning_rate': 2.773780975219824e-05, 'epoch': 1.45}\n",
      "{'loss': 0.01, 'grad_norm': 0.2965131103992462, 'learning_rate': 2.7657873701039173e-05, 'epoch': 1.45}\n",
      "{'loss': 0.0177, 'grad_norm': 0.32454928755760193, 'learning_rate': 2.7577937649880096e-05, 'epoch': 1.45}\n",
      "{'loss': 0.0255, 'grad_norm': 0.38609835505485535, 'learning_rate': 2.7498001598721023e-05, 'epoch': 1.45}\n",
      "{'loss': 0.0101, 'grad_norm': 0.39366403222084045, 'learning_rate': 2.741806554756195e-05, 'epoch': 1.45}\n",
      "{'loss': 0.019, 'grad_norm': 0.456645131111145, 'learning_rate': 2.733812949640288e-05, 'epoch': 1.45}\n",
      "{'loss': 0.0079, 'grad_norm': 0.3784460723400116, 'learning_rate': 2.7258193445243807e-05, 'epoch': 1.45}\n",
      "{'loss': 0.0245, 'grad_norm': 0.4957471489906311, 'learning_rate': 2.7178257394084734e-05, 'epoch': 1.46}\n",
      "{'loss': 0.0234, 'grad_norm': 0.4443818926811218, 'learning_rate': 2.7098321342925658e-05, 'epoch': 1.46}\n",
      "{'loss': 0.0414, 'grad_norm': 0.7690788507461548, 'learning_rate': 2.701838529176659e-05, 'epoch': 1.46}\n",
      "{'loss': 0.0362, 'grad_norm': 0.47038716077804565, 'learning_rate': 2.6938449240607515e-05, 'epoch': 1.46}\n",
      "{'loss': 0.0215, 'grad_norm': 0.7159134745597839, 'learning_rate': 2.6858513189448442e-05, 'epoch': 1.46}\n",
      "{'loss': 0.032, 'grad_norm': 0.42817625403404236, 'learning_rate': 2.677857713828937e-05, 'epoch': 1.46}\n",
      "{'loss': 0.0344, 'grad_norm': 0.6163864731788635, 'learning_rate': 2.66986410871303e-05, 'epoch': 1.47}\n",
      "{'loss': 0.0246, 'grad_norm': 0.6511974930763245, 'learning_rate': 2.6618705035971226e-05, 'epoch': 1.47}\n",
      "{'loss': 0.0247, 'grad_norm': 0.4200514256954193, 'learning_rate': 2.653876898481215e-05, 'epoch': 1.47}\n",
      "{'loss': 0.0116, 'grad_norm': 0.23268237709999084, 'learning_rate': 2.6458832933653077e-05, 'epoch': 1.47}\n",
      "{'loss': 0.0157, 'grad_norm': 0.6504131555557251, 'learning_rate': 2.637889688249401e-05, 'epoch': 1.47}\n",
      "{'loss': 0.024, 'grad_norm': 0.5168662667274475, 'learning_rate': 2.6298960831334934e-05, 'epoch': 1.47}\n",
      "{'loss': 0.0145, 'grad_norm': 0.34927138686180115, 'learning_rate': 2.621902478017586e-05, 'epoch': 1.48}\n",
      "{'loss': 0.0233, 'grad_norm': 0.6542373299598694, 'learning_rate': 2.6139088729016788e-05, 'epoch': 1.48}\n",
      "{'loss': 0.0343, 'grad_norm': 0.32308119535446167, 'learning_rate': 2.6059152677857718e-05, 'epoch': 1.48}\n",
      "{'loss': 0.0264, 'grad_norm': 0.38188353180885315, 'learning_rate': 2.5979216626698645e-05, 'epoch': 1.48}\n",
      "{'loss': 0.0277, 'grad_norm': 0.40857774019241333, 'learning_rate': 2.589928057553957e-05, 'epoch': 1.48}\n",
      "{'loss': 0.0182, 'grad_norm': 0.9679420590400696, 'learning_rate': 2.5819344524380495e-05, 'epoch': 1.48}\n",
      "{'loss': 0.0244, 'grad_norm': 0.47692424058914185, 'learning_rate': 2.5739408473221422e-05, 'epoch': 1.49}\n",
      "{'loss': 0.0151, 'grad_norm': 0.2995692491531372, 'learning_rate': 2.5659472422062352e-05, 'epoch': 1.49}\n",
      "{'loss': 0.0091, 'grad_norm': 0.2279501110315323, 'learning_rate': 2.557953637090328e-05, 'epoch': 1.49}\n",
      "{'loss': 0.0166, 'grad_norm': 0.54002445936203, 'learning_rate': 2.5499600319744203e-05, 'epoch': 1.49}\n",
      "{'loss': 0.0219, 'grad_norm': 0.6493875980377197, 'learning_rate': 2.541966426858513e-05, 'epoch': 1.49}\n",
      "{'loss': 0.0223, 'grad_norm': 0.39785513281822205, 'learning_rate': 2.5339728217426064e-05, 'epoch': 1.49}\n",
      "{'loss': 0.0154, 'grad_norm': 0.4056762456893921, 'learning_rate': 2.5259792166266987e-05, 'epoch': 1.49}\n",
      "{'loss': 0.0311, 'grad_norm': 0.502536416053772, 'learning_rate': 2.5179856115107914e-05, 'epoch': 1.5}\n",
      "{'loss': 0.0181, 'grad_norm': 0.3484370708465576, 'learning_rate': 2.509992006394884e-05, 'epoch': 1.5}\n",
      "{'loss': 0.0191, 'grad_norm': 0.28590336441993713, 'learning_rate': 2.501998401278977e-05, 'epoch': 1.5}\n",
      "{'loss': 0.0358, 'grad_norm': 1.799269199371338, 'learning_rate': 2.4940047961630698e-05, 'epoch': 1.5}\n",
      "{'loss': 0.0213, 'grad_norm': 0.41231000423431396, 'learning_rate': 2.486011191047162e-05, 'epoch': 1.5}\n",
      "{'loss': 0.0222, 'grad_norm': 0.43301650881767273, 'learning_rate': 2.4780175859312552e-05, 'epoch': 1.5}\n",
      "{'loss': 0.0327, 'grad_norm': 0.9144954681396484, 'learning_rate': 2.470023980815348e-05, 'epoch': 1.51}\n",
      "{'loss': 0.0401, 'grad_norm': 0.6653711795806885, 'learning_rate': 2.4620303756994406e-05, 'epoch': 1.51}\n",
      "{'loss': 0.0232, 'grad_norm': 0.5008324384689331, 'learning_rate': 2.4540367705835333e-05, 'epoch': 1.51}\n",
      "{'loss': 0.0242, 'grad_norm': 0.4347293972969055, 'learning_rate': 2.446043165467626e-05, 'epoch': 1.51}\n",
      "{'loss': 0.0131, 'grad_norm': 0.27894172072410583, 'learning_rate': 2.4380495603517186e-05, 'epoch': 1.51}\n",
      "{'loss': 0.0227, 'grad_norm': 0.3997581899166107, 'learning_rate': 2.4300559552358117e-05, 'epoch': 1.51}\n",
      "{'loss': 0.0085, 'grad_norm': 0.3073594272136688, 'learning_rate': 2.422062350119904e-05, 'epoch': 1.52}\n",
      "{'loss': 0.0172, 'grad_norm': 0.6573665738105774, 'learning_rate': 2.414068745003997e-05, 'epoch': 1.52}\n",
      "{'loss': 0.0172, 'grad_norm': 0.33509907126426697, 'learning_rate': 2.4060751398880894e-05, 'epoch': 1.52}\n",
      "{'loss': 0.0207, 'grad_norm': 0.6430028676986694, 'learning_rate': 2.3980815347721824e-05, 'epoch': 1.52}\n",
      "{'loss': 0.0295, 'grad_norm': 0.4343855082988739, 'learning_rate': 2.390087929656275e-05, 'epoch': 1.52}\n",
      "{'loss': 0.0321, 'grad_norm': 0.5046446323394775, 'learning_rate': 2.3820943245403678e-05, 'epoch': 1.52}\n",
      "{'loss': 0.0148, 'grad_norm': 0.4455825686454773, 'learning_rate': 2.3741007194244605e-05, 'epoch': 1.53}\n",
      "{'loss': 0.017, 'grad_norm': 0.5001677870750427, 'learning_rate': 2.3661071143085532e-05, 'epoch': 1.53}\n",
      "{'loss': 0.0177, 'grad_norm': 0.3100351393222809, 'learning_rate': 2.358113509192646e-05, 'epoch': 1.53}\n",
      "{'loss': 0.0124, 'grad_norm': 0.24604502320289612, 'learning_rate': 2.350119904076739e-05, 'epoch': 1.53}\n",
      "{'loss': 0.0161, 'grad_norm': 0.29004064202308655, 'learning_rate': 2.3421262989608313e-05, 'epoch': 1.53}\n",
      "{'loss': 0.0119, 'grad_norm': 0.9297236800193787, 'learning_rate': 2.3341326938449243e-05, 'epoch': 1.53}\n",
      "{'loss': 0.0406, 'grad_norm': 0.8759559392929077, 'learning_rate': 2.326139088729017e-05, 'epoch': 1.53}\n",
      "{'loss': 0.025, 'grad_norm': 0.5186433792114258, 'learning_rate': 2.3181454836131097e-05, 'epoch': 1.54}\n",
      "{'loss': 0.0274, 'grad_norm': 0.870242714881897, 'learning_rate': 2.3101518784972024e-05, 'epoch': 1.54}\n",
      "{'loss': 0.0162, 'grad_norm': 0.5129975080490112, 'learning_rate': 2.302158273381295e-05, 'epoch': 1.54}\n",
      "{'loss': 0.016, 'grad_norm': 0.43281298875808716, 'learning_rate': 2.2941646682653878e-05, 'epoch': 1.54}\n",
      "{'loss': 0.0091, 'grad_norm': 0.3281623423099518, 'learning_rate': 2.2861710631494808e-05, 'epoch': 1.54}\n",
      "{'loss': 0.0286, 'grad_norm': 0.4845242500305176, 'learning_rate': 2.278177458033573e-05, 'epoch': 1.54}\n",
      "{'loss': 0.0223, 'grad_norm': 0.47150227427482605, 'learning_rate': 2.2701838529176662e-05, 'epoch': 1.55}\n",
      "{'loss': 0.0266, 'grad_norm': 1.44886314868927, 'learning_rate': 2.2621902478017585e-05, 'epoch': 1.55}\n",
      "{'loss': 0.0168, 'grad_norm': 0.6932731866836548, 'learning_rate': 2.2541966426858512e-05, 'epoch': 1.55}\n",
      "{'loss': 0.0252, 'grad_norm': 0.5794122219085693, 'learning_rate': 2.2462030375699443e-05, 'epoch': 1.55}\n",
      "{'loss': 0.0224, 'grad_norm': 0.5221875309944153, 'learning_rate': 2.2382094324540366e-05, 'epoch': 1.55}\n",
      "{'loss': 0.0272, 'grad_norm': 0.5631473064422607, 'learning_rate': 2.2302158273381296e-05, 'epoch': 1.55}\n",
      "{'loss': 0.0262, 'grad_norm': 0.47439002990722656, 'learning_rate': 2.2222222222222223e-05, 'epoch': 1.56}\n",
      "{'loss': 0.0201, 'grad_norm': 0.40358495712280273, 'learning_rate': 2.214228617106315e-05, 'epoch': 1.56}\n",
      "{'loss': 0.0257, 'grad_norm': 0.6163965463638306, 'learning_rate': 2.2062350119904077e-05, 'epoch': 1.56}\n",
      "{'loss': 0.0178, 'grad_norm': 0.3110238313674927, 'learning_rate': 2.1982414068745004e-05, 'epoch': 1.56}\n",
      "{'loss': 0.0295, 'grad_norm': 0.37323808670043945, 'learning_rate': 2.190247801758593e-05, 'epoch': 1.56}\n",
      "{'loss': 0.0324, 'grad_norm': 1.1543242931365967, 'learning_rate': 2.182254196642686e-05, 'epoch': 1.56}\n",
      "{'loss': 0.0263, 'grad_norm': 1.1974250078201294, 'learning_rate': 2.1742605915267785e-05, 'epoch': 1.57}\n",
      "{'loss': 0.0179, 'grad_norm': 0.4425431787967682, 'learning_rate': 2.1662669864108715e-05, 'epoch': 1.57}\n",
      "{'loss': 0.0116, 'grad_norm': 0.2876412868499756, 'learning_rate': 2.1582733812949642e-05, 'epoch': 1.57}\n",
      "{'loss': 0.0346, 'grad_norm': 0.8358859419822693, 'learning_rate': 2.150279776179057e-05, 'epoch': 1.57}\n",
      "{'loss': 0.0237, 'grad_norm': 0.48358866572380066, 'learning_rate': 2.1422861710631496e-05, 'epoch': 1.57}\n",
      "{'loss': 0.0205, 'grad_norm': 0.5800542235374451, 'learning_rate': 2.1342925659472423e-05, 'epoch': 1.57}\n",
      "{'loss': 0.0216, 'grad_norm': 0.3039095401763916, 'learning_rate': 2.126298960831335e-05, 'epoch': 1.57}\n",
      "{'loss': 0.0278, 'grad_norm': 0.6550034284591675, 'learning_rate': 2.1183053557154277e-05, 'epoch': 1.58}\n",
      "{'loss': 0.0369, 'grad_norm': 0.6227506399154663, 'learning_rate': 2.1103117505995203e-05, 'epoch': 1.58}\n",
      "{'loss': 0.0179, 'grad_norm': 0.5670466423034668, 'learning_rate': 2.1023181454836134e-05, 'epoch': 1.58}\n",
      "{'loss': 0.0119, 'grad_norm': 0.521998941898346, 'learning_rate': 2.0943245403677057e-05, 'epoch': 1.58}\n",
      "{'loss': 0.0163, 'grad_norm': 0.40249258279800415, 'learning_rate': 2.0863309352517988e-05, 'epoch': 1.58}\n",
      "{'loss': 0.0141, 'grad_norm': 0.44352003931999207, 'learning_rate': 2.0783373301358914e-05, 'epoch': 1.58}\n",
      "{'loss': 0.0227, 'grad_norm': 0.41066327691078186, 'learning_rate': 2.070343725019984e-05, 'epoch': 1.59}\n",
      "{'loss': 0.029, 'grad_norm': 0.45490241050720215, 'learning_rate': 2.062350119904077e-05, 'epoch': 1.59}\n",
      "{'loss': 0.0313, 'grad_norm': 0.45565712451934814, 'learning_rate': 2.0543565147881695e-05, 'epoch': 1.59}\n",
      "{'loss': 0.0283, 'grad_norm': 0.5815528631210327, 'learning_rate': 2.0463629096722622e-05, 'epoch': 1.59}\n",
      "{'loss': 0.0122, 'grad_norm': 0.3265146315097809, 'learning_rate': 2.0383693045563552e-05, 'epoch': 1.59}\n",
      "{'loss': 0.0148, 'grad_norm': 0.30396568775177, 'learning_rate': 2.0303756994404476e-05, 'epoch': 1.59}\n",
      "{'loss': 0.0165, 'grad_norm': 0.48165541887283325, 'learning_rate': 2.0223820943245406e-05, 'epoch': 1.6}\n",
      "{'loss': 0.0236, 'grad_norm': 0.47695401310920715, 'learning_rate': 2.0143884892086333e-05, 'epoch': 1.6}\n",
      "{'loss': 0.0126, 'grad_norm': 0.338226854801178, 'learning_rate': 2.006394884092726e-05, 'epoch': 1.6}\n",
      "{'loss': 0.0344, 'grad_norm': 0.8101951479911804, 'learning_rate': 1.9984012789768187e-05, 'epoch': 1.6}\n",
      "{'loss': 0.0145, 'grad_norm': 0.4366111755371094, 'learning_rate': 1.9904076738609114e-05, 'epoch': 1.6}\n",
      "{'loss': 0.0195, 'grad_norm': 0.4149409234523773, 'learning_rate': 1.982414068745004e-05, 'epoch': 1.6}\n",
      "{'loss': 0.0308, 'grad_norm': 1.0440800189971924, 'learning_rate': 1.9744204636290968e-05, 'epoch': 1.61}\n",
      "{'loss': 0.0158, 'grad_norm': 0.3092048466205597, 'learning_rate': 1.9664268585131895e-05, 'epoch': 1.61}\n",
      "{'loss': 0.0367, 'grad_norm': 0.7389802932739258, 'learning_rate': 1.9584332533972825e-05, 'epoch': 1.61}\n",
      "{'loss': 0.0473, 'grad_norm': 0.5963544249534607, 'learning_rate': 1.950439648281375e-05, 'epoch': 1.61}\n",
      "{'loss': 0.0195, 'grad_norm': 0.4498775005340576, 'learning_rate': 1.942446043165468e-05, 'epoch': 1.61}\n",
      "{'loss': 0.026, 'grad_norm': 0.33488938212394714, 'learning_rate': 1.9344524380495606e-05, 'epoch': 1.61}\n",
      "{'loss': 0.0228, 'grad_norm': 0.3731573820114136, 'learning_rate': 1.926458832933653e-05, 'epoch': 1.61}\n",
      "{'loss': 0.0232, 'grad_norm': 0.4160268306732178, 'learning_rate': 1.918465227817746e-05, 'epoch': 1.62}\n",
      "{'loss': 0.0151, 'grad_norm': 0.485830694437027, 'learning_rate': 1.9104716227018386e-05, 'epoch': 1.62}\n",
      "{'loss': 0.0275, 'grad_norm': 0.27215033769607544, 'learning_rate': 1.9024780175859313e-05, 'epoch': 1.62}\n",
      "{'loss': 0.0189, 'grad_norm': 0.4571698307991028, 'learning_rate': 1.894484412470024e-05, 'epoch': 1.62}\n",
      "{'loss': 0.0276, 'grad_norm': 0.514197051525116, 'learning_rate': 1.8864908073541167e-05, 'epoch': 1.62}\n",
      "{'loss': 0.0101, 'grad_norm': 0.44356897473335266, 'learning_rate': 1.8784972022382094e-05, 'epoch': 1.62}\n",
      "{'loss': 0.0316, 'grad_norm': 0.5404818654060364, 'learning_rate': 1.8705035971223024e-05, 'epoch': 1.63}\n",
      "{'loss': 0.0149, 'grad_norm': 0.28621408343315125, 'learning_rate': 1.8625099920063948e-05, 'epoch': 1.63}\n",
      "{'loss': 0.0186, 'grad_norm': 1.5401936769485474, 'learning_rate': 1.8545163868904878e-05, 'epoch': 1.63}\n",
      "{'loss': 0.0225, 'grad_norm': 0.42570963501930237, 'learning_rate': 1.8465227817745802e-05, 'epoch': 1.63}\n",
      "{'loss': 0.0145, 'grad_norm': 0.2909219563007355, 'learning_rate': 1.8385291766586732e-05, 'epoch': 1.63}\n",
      "{'loss': 0.0196, 'grad_norm': 1.023809552192688, 'learning_rate': 1.830535571542766e-05, 'epoch': 1.63}\n",
      "{'loss': 0.0146, 'grad_norm': 0.4102630615234375, 'learning_rate': 1.8225419664268586e-05, 'epoch': 1.64}\n",
      "{'loss': 0.0216, 'grad_norm': 0.3308037519454956, 'learning_rate': 1.8145483613109513e-05, 'epoch': 1.64}\n",
      "{'loss': 0.0207, 'grad_norm': 0.6223275065422058, 'learning_rate': 1.806554756195044e-05, 'epoch': 1.64}\n",
      "{'loss': 0.0291, 'grad_norm': 0.48668962717056274, 'learning_rate': 1.7985611510791367e-05, 'epoch': 1.64}\n",
      "{'loss': 0.0093, 'grad_norm': 0.25190040469169617, 'learning_rate': 1.7905675459632297e-05, 'epoch': 1.64}\n",
      "{'loss': 0.0188, 'grad_norm': 0.34024137258529663, 'learning_rate': 1.782573940847322e-05, 'epoch': 1.64}\n",
      "{'loss': 0.0145, 'grad_norm': 0.34121397137641907, 'learning_rate': 1.774580335731415e-05, 'epoch': 1.65}\n",
      "{'loss': 0.0231, 'grad_norm': 1.1566184759140015, 'learning_rate': 1.7665867306155078e-05, 'epoch': 1.65}\n",
      "{'loss': 0.0212, 'grad_norm': 0.352585107088089, 'learning_rate': 1.7585931254996005e-05, 'epoch': 1.65}\n",
      "{'loss': 0.0105, 'grad_norm': 0.5445733666419983, 'learning_rate': 1.750599520383693e-05, 'epoch': 1.65}\n",
      "{'loss': 0.0258, 'grad_norm': 0.4989146292209625, 'learning_rate': 1.742605915267786e-05, 'epoch': 1.65}\n",
      "{'loss': 0.0222, 'grad_norm': 0.46398982405662537, 'learning_rate': 1.7346123101518785e-05, 'epoch': 1.65}\n",
      "{'loss': 0.0185, 'grad_norm': 0.41983580589294434, 'learning_rate': 1.7266187050359716e-05, 'epoch': 1.65}\n",
      "{'loss': 0.0224, 'grad_norm': 0.5377054810523987, 'learning_rate': 1.718625099920064e-05, 'epoch': 1.66}\n",
      "{'loss': 0.0165, 'grad_norm': 0.3295380771160126, 'learning_rate': 1.710631494804157e-05, 'epoch': 1.66}\n",
      "{'loss': 0.0174, 'grad_norm': 0.4584711790084839, 'learning_rate': 1.7026378896882493e-05, 'epoch': 1.66}\n",
      "{'loss': 0.0262, 'grad_norm': 0.4373849332332611, 'learning_rate': 1.6946442845723423e-05, 'epoch': 1.66}\n",
      "{'loss': 0.0322, 'grad_norm': 0.5297194123268127, 'learning_rate': 1.686650679456435e-05, 'epoch': 1.66}\n",
      "{'loss': 0.0155, 'grad_norm': 0.4607645273208618, 'learning_rate': 1.6786570743405277e-05, 'epoch': 1.66}\n",
      "{'loss': 0.0199, 'grad_norm': 0.49325308203697205, 'learning_rate': 1.6706634692246204e-05, 'epoch': 1.67}\n",
      "{'loss': 0.0335, 'grad_norm': 0.6427549123764038, 'learning_rate': 1.662669864108713e-05, 'epoch': 1.67}\n",
      "{'loss': 0.0345, 'grad_norm': 0.4382580816745758, 'learning_rate': 1.6546762589928058e-05, 'epoch': 1.67}\n",
      "{'loss': 0.0192, 'grad_norm': 0.47991305589675903, 'learning_rate': 1.6466826538768988e-05, 'epoch': 1.67}\n",
      "{'loss': 0.0135, 'grad_norm': 0.4632847011089325, 'learning_rate': 1.638689048760991e-05, 'epoch': 1.67}\n",
      "{'loss': 0.0243, 'grad_norm': 0.4370204508304596, 'learning_rate': 1.6306954436450842e-05, 'epoch': 1.67}\n",
      "{'loss': 0.0309, 'grad_norm': 0.38314807415008545, 'learning_rate': 1.622701838529177e-05, 'epoch': 1.68}\n",
      "{'loss': 0.0199, 'grad_norm': 0.33886680006980896, 'learning_rate': 1.6147082334132696e-05, 'epoch': 1.68}\n",
      "{'loss': 0.027, 'grad_norm': 0.2804557979106903, 'learning_rate': 1.6067146282973623e-05, 'epoch': 1.68}\n",
      "{'loss': 0.0254, 'grad_norm': 0.5449326634407043, 'learning_rate': 1.5987210231814546e-05, 'epoch': 1.68}\n",
      "{'loss': 0.0218, 'grad_norm': 1.1904200315475464, 'learning_rate': 1.5907274180655477e-05, 'epoch': 1.68}\n",
      "{'loss': 0.0225, 'grad_norm': 0.42848527431488037, 'learning_rate': 1.5827338129496403e-05, 'epoch': 1.68}\n",
      "{'loss': 0.0191, 'grad_norm': 0.387437641620636, 'learning_rate': 1.574740207833733e-05, 'epoch': 1.69}\n",
      "{'loss': 0.0131, 'grad_norm': 0.3778916299343109, 'learning_rate': 1.5667466027178257e-05, 'epoch': 1.69}\n",
      "{'loss': 0.0226, 'grad_norm': 0.5209500789642334, 'learning_rate': 1.5587529976019184e-05, 'epoch': 1.69}\n",
      "{'loss': 0.0165, 'grad_norm': 0.47740310430526733, 'learning_rate': 1.550759392486011e-05, 'epoch': 1.69}\n",
      "{'loss': 0.0198, 'grad_norm': 0.1883520931005478, 'learning_rate': 1.542765787370104e-05, 'epoch': 1.69}\n",
      "{'loss': 0.0164, 'grad_norm': 0.2982594072818756, 'learning_rate': 1.5347721822541965e-05, 'epoch': 1.69}\n",
      "{'loss': 0.0246, 'grad_norm': 0.48401889204978943, 'learning_rate': 1.5267785771382895e-05, 'epoch': 1.69}\n",
      "{'loss': 0.0095, 'grad_norm': 0.331712007522583, 'learning_rate': 1.518784972022382e-05, 'epoch': 1.7}\n",
      "{'loss': 0.0235, 'grad_norm': 0.486082524061203, 'learning_rate': 1.5107913669064749e-05, 'epoch': 1.7}\n",
      "{'loss': 0.0247, 'grad_norm': 0.5059128999710083, 'learning_rate': 1.5027977617905676e-05, 'epoch': 1.7}\n",
      "{'loss': 0.0321, 'grad_norm': 0.5254643559455872, 'learning_rate': 1.4948041566746605e-05, 'epoch': 1.7}\n",
      "{'loss': 0.0122, 'grad_norm': 0.3436065912246704, 'learning_rate': 1.486810551558753e-05, 'epoch': 1.7}\n",
      "{'loss': 0.026, 'grad_norm': 0.9511635303497314, 'learning_rate': 1.4788169464428458e-05, 'epoch': 1.7}\n",
      "{'loss': 0.0276, 'grad_norm': 0.3204769194126129, 'learning_rate': 1.4708233413269384e-05, 'epoch': 1.71}\n",
      "{'loss': 0.0288, 'grad_norm': 0.7790676951408386, 'learning_rate': 1.4628297362110314e-05, 'epoch': 1.71}\n",
      "{'loss': 0.0142, 'grad_norm': 0.5399346947669983, 'learning_rate': 1.4548361310951239e-05, 'epoch': 1.71}\n",
      "{'loss': 0.0182, 'grad_norm': 0.3610437512397766, 'learning_rate': 1.4468425259792168e-05, 'epoch': 1.71}\n",
      "{'loss': 0.0244, 'grad_norm': 0.455005943775177, 'learning_rate': 1.4388489208633093e-05, 'epoch': 1.71}\n",
      "{'loss': 0.022, 'grad_norm': 0.4001530408859253, 'learning_rate': 1.4308553157474022e-05, 'epoch': 1.71}\n",
      "{'loss': 0.025, 'grad_norm': 0.4302281141281128, 'learning_rate': 1.4228617106314948e-05, 'epoch': 1.72}\n",
      "{'loss': 0.0276, 'grad_norm': 0.6067591905593872, 'learning_rate': 1.4148681055155877e-05, 'epoch': 1.72}\n",
      "{'loss': 0.0423, 'grad_norm': 0.568091630935669, 'learning_rate': 1.4068745003996802e-05, 'epoch': 1.72}\n",
      "{'loss': 0.0344, 'grad_norm': 0.9306122660636902, 'learning_rate': 1.3988808952837731e-05, 'epoch': 1.72}\n",
      "{'loss': 0.0325, 'grad_norm': 0.5269970893859863, 'learning_rate': 1.3908872901678658e-05, 'epoch': 1.72}\n",
      "{'loss': 0.0172, 'grad_norm': 0.33591172099113464, 'learning_rate': 1.3828936850519586e-05, 'epoch': 1.72}\n",
      "{'loss': 0.0336, 'grad_norm': 1.2236006259918213, 'learning_rate': 1.3749000799360512e-05, 'epoch': 1.73}\n",
      "{'loss': 0.0281, 'grad_norm': 0.7893447875976562, 'learning_rate': 1.366906474820144e-05, 'epoch': 1.73}\n",
      "{'loss': 0.0148, 'grad_norm': 0.4623270332813263, 'learning_rate': 1.3589128697042367e-05, 'epoch': 1.73}\n",
      "{'loss': 0.0183, 'grad_norm': 1.0574969053268433, 'learning_rate': 1.3509192645883296e-05, 'epoch': 1.73}\n",
      "{'loss': 0.02, 'grad_norm': 0.38742595911026, 'learning_rate': 1.3429256594724221e-05, 'epoch': 1.73}\n",
      "{'loss': 0.0166, 'grad_norm': 0.40242162346839905, 'learning_rate': 1.334932054356515e-05, 'epoch': 1.73}\n",
      "{'loss': 0.0144, 'grad_norm': 0.4690830409526825, 'learning_rate': 1.3269384492406075e-05, 'epoch': 1.73}\n",
      "{'loss': 0.0113, 'grad_norm': 0.37520942091941833, 'learning_rate': 1.3189448441247005e-05, 'epoch': 1.74}\n",
      "{'loss': 0.0259, 'grad_norm': 0.4178468883037567, 'learning_rate': 1.310951239008793e-05, 'epoch': 1.74}\n",
      "{'loss': 0.0151, 'grad_norm': 0.4181678891181946, 'learning_rate': 1.3029576338928859e-05, 'epoch': 1.74}\n",
      "{'loss': 0.0148, 'grad_norm': 0.4386886954307556, 'learning_rate': 1.2949640287769784e-05, 'epoch': 1.74}\n",
      "{'loss': 0.0274, 'grad_norm': 0.28787198662757874, 'learning_rate': 1.2869704236610711e-05, 'epoch': 1.74}\n",
      "{'loss': 0.0244, 'grad_norm': 0.46014755964279175, 'learning_rate': 1.278976818545164e-05, 'epoch': 1.74}\n",
      "{'loss': 0.0141, 'grad_norm': 0.25622451305389404, 'learning_rate': 1.2709832134292565e-05, 'epoch': 1.75}\n",
      "{'loss': 0.026, 'grad_norm': 0.3856319189071655, 'learning_rate': 1.2629896083133494e-05, 'epoch': 1.75}\n",
      "{'loss': 0.0264, 'grad_norm': 0.4672299027442932, 'learning_rate': 1.254996003197442e-05, 'epoch': 1.75}\n",
      "{'loss': 0.0203, 'grad_norm': 0.5540158748626709, 'learning_rate': 1.2470023980815349e-05, 'epoch': 1.75}\n",
      "{'loss': 0.0198, 'grad_norm': 0.7029475569725037, 'learning_rate': 1.2390087929656276e-05, 'epoch': 1.75}\n",
      "{'loss': 0.0195, 'grad_norm': 0.525368869304657, 'learning_rate': 1.2310151878497203e-05, 'epoch': 1.75}\n",
      "{'loss': 0.012, 'grad_norm': 0.409455269575119, 'learning_rate': 1.223021582733813e-05, 'epoch': 1.76}\n",
      "{'loss': 0.0071, 'grad_norm': 0.24298954010009766, 'learning_rate': 1.2150279776179058e-05, 'epoch': 1.76}\n",
      "{'loss': 0.0155, 'grad_norm': 0.3464464247226715, 'learning_rate': 1.2070343725019985e-05, 'epoch': 1.76}\n",
      "{'loss': 0.0188, 'grad_norm': 0.9484004974365234, 'learning_rate': 1.1990407673860912e-05, 'epoch': 1.76}\n",
      "{'loss': 0.0133, 'grad_norm': 0.5276694297790527, 'learning_rate': 1.1910471622701839e-05, 'epoch': 1.76}\n",
      "{'loss': 0.0275, 'grad_norm': 0.4789881706237793, 'learning_rate': 1.1830535571542766e-05, 'epoch': 1.76}\n",
      "{'loss': 0.0145, 'grad_norm': 0.5306767821311951, 'learning_rate': 1.1750599520383695e-05, 'epoch': 1.76}\n",
      "{'loss': 0.0257, 'grad_norm': 0.4810243546962738, 'learning_rate': 1.1670663469224622e-05, 'epoch': 1.77}\n",
      "{'loss': 0.0237, 'grad_norm': 0.42405563592910767, 'learning_rate': 1.1590727418065548e-05, 'epoch': 1.77}\n",
      "{'loss': 0.0431, 'grad_norm': 15.11327838897705, 'learning_rate': 1.1510791366906475e-05, 'epoch': 1.77}\n",
      "{'loss': 0.0148, 'grad_norm': 0.4029426872730255, 'learning_rate': 1.1430855315747404e-05, 'epoch': 1.77}\n",
      "{'loss': 0.0222, 'grad_norm': 0.49940040707588196, 'learning_rate': 1.1350919264588331e-05, 'epoch': 1.77}\n",
      "{'loss': 0.0196, 'grad_norm': 0.37814468145370483, 'learning_rate': 1.1270983213429256e-05, 'epoch': 1.77}\n",
      "{'loss': 0.0205, 'grad_norm': 0.44747239351272583, 'learning_rate': 1.1191047162270183e-05, 'epoch': 1.78}\n",
      "{'loss': 0.0256, 'grad_norm': 0.5276519060134888, 'learning_rate': 1.1111111111111112e-05, 'epoch': 1.78}\n",
      "{'loss': 0.0271, 'grad_norm': 3.710639476776123, 'learning_rate': 1.1031175059952039e-05, 'epoch': 1.78}\n",
      "{'loss': 0.02, 'grad_norm': 0.4307366609573364, 'learning_rate': 1.0951239008792965e-05, 'epoch': 1.78}\n",
      "{'loss': 0.0192, 'grad_norm': 0.36129510402679443, 'learning_rate': 1.0871302957633892e-05, 'epoch': 1.78}\n",
      "{'loss': 0.0237, 'grad_norm': 0.38197407126426697, 'learning_rate': 1.0791366906474821e-05, 'epoch': 1.78}\n",
      "{'loss': 0.0185, 'grad_norm': 0.32205817103385925, 'learning_rate': 1.0711430855315748e-05, 'epoch': 1.79}\n",
      "{'loss': 0.0276, 'grad_norm': 0.44813072681427, 'learning_rate': 1.0631494804156675e-05, 'epoch': 1.79}\n",
      "{'loss': 0.0224, 'grad_norm': 0.5346695780754089, 'learning_rate': 1.0551558752997602e-05, 'epoch': 1.79}\n",
      "{'loss': 0.0202, 'grad_norm': 0.30588069558143616, 'learning_rate': 1.0471622701838529e-05, 'epoch': 1.79}\n",
      "{'loss': 0.0319, 'grad_norm': 0.49776872992515564, 'learning_rate': 1.0391686650679457e-05, 'epoch': 1.79}\n",
      "{'loss': 0.013, 'grad_norm': 0.2875690758228302, 'learning_rate': 1.0311750599520384e-05, 'epoch': 1.79}\n",
      "{'loss': 0.0207, 'grad_norm': 0.45817726850509644, 'learning_rate': 1.0231814548361311e-05, 'epoch': 1.8}\n",
      "{'loss': 0.0182, 'grad_norm': 0.45733675360679626, 'learning_rate': 1.0151878497202238e-05, 'epoch': 1.8}\n",
      "{'loss': 0.0165, 'grad_norm': 0.30907806754112244, 'learning_rate': 1.0071942446043167e-05, 'epoch': 1.8}\n",
      "{'loss': 0.0062, 'grad_norm': 0.20898470282554626, 'learning_rate': 9.992006394884094e-06, 'epoch': 1.8}\n",
      "{'loss': 0.0322, 'grad_norm': 0.7487367987632751, 'learning_rate': 9.91207034372502e-06, 'epoch': 1.8}\n",
      "{'loss': 0.0289, 'grad_norm': 0.46530425548553467, 'learning_rate': 9.832134292565947e-06, 'epoch': 1.8}\n",
      "{'loss': 0.0238, 'grad_norm': 0.6126678586006165, 'learning_rate': 9.752198241406874e-06, 'epoch': 1.8}\n",
      "{'loss': 0.017, 'grad_norm': 0.39895927906036377, 'learning_rate': 9.672262190247803e-06, 'epoch': 1.81}\n",
      "{'loss': 0.0228, 'grad_norm': 0.4375479221343994, 'learning_rate': 9.59232613908873e-06, 'epoch': 1.81}\n",
      "{'loss': 0.0201, 'grad_norm': 0.36964982748031616, 'learning_rate': 9.512390087929657e-06, 'epoch': 1.81}\n",
      "{'loss': 0.0184, 'grad_norm': 0.3691774010658264, 'learning_rate': 9.432454036770584e-06, 'epoch': 1.81}\n",
      "{'loss': 0.0164, 'grad_norm': 0.5190805196762085, 'learning_rate': 9.352517985611512e-06, 'epoch': 1.81}\n",
      "{'loss': 0.0144, 'grad_norm': 0.33601272106170654, 'learning_rate': 9.272581934452439e-06, 'epoch': 1.81}\n",
      "{'loss': 0.048, 'grad_norm': 0.7080594897270203, 'learning_rate': 9.192645883293366e-06, 'epoch': 1.82}\n",
      "{'loss': 0.04, 'grad_norm': 0.943550169467926, 'learning_rate': 9.112709832134293e-06, 'epoch': 1.82}\n",
      "{'loss': 0.018, 'grad_norm': 0.4712371528148651, 'learning_rate': 9.03277378097522e-06, 'epoch': 1.82}\n",
      "{'loss': 0.0218, 'grad_norm': 0.4534876346588135, 'learning_rate': 8.952837729816148e-06, 'epoch': 1.82}\n",
      "{'loss': 0.0188, 'grad_norm': 0.47538793087005615, 'learning_rate': 8.872901678657075e-06, 'epoch': 1.82}\n",
      "{'loss': 0.0152, 'grad_norm': 0.48004284501075745, 'learning_rate': 8.792965627498002e-06, 'epoch': 1.82}\n",
      "{'loss': 0.014, 'grad_norm': 0.27522847056388855, 'learning_rate': 8.71302957633893e-06, 'epoch': 1.83}\n",
      "{'loss': 0.0168, 'grad_norm': 0.36775845289230347, 'learning_rate': 8.633093525179858e-06, 'epoch': 1.83}\n",
      "{'loss': 0.0282, 'grad_norm': 0.47931304574012756, 'learning_rate': 8.553157474020785e-06, 'epoch': 1.83}\n",
      "{'loss': 0.0175, 'grad_norm': 0.6280332207679749, 'learning_rate': 8.473221422861712e-06, 'epoch': 1.83}\n",
      "{'loss': 0.0129, 'grad_norm': 0.657207190990448, 'learning_rate': 8.393285371702639e-06, 'epoch': 1.83}\n",
      "{'loss': 0.016, 'grad_norm': 1.2331914901733398, 'learning_rate': 8.313349320543565e-06, 'epoch': 1.83}\n",
      "{'loss': 0.0124, 'grad_norm': 0.4524275064468384, 'learning_rate': 8.233413269384494e-06, 'epoch': 1.84}\n",
      "{'loss': 0.0227, 'grad_norm': 0.4101611077785492, 'learning_rate': 8.153477218225421e-06, 'epoch': 1.84}\n",
      "{'loss': 0.0352, 'grad_norm': 0.6597913503646851, 'learning_rate': 8.073541167066348e-06, 'epoch': 1.84}\n",
      "{'loss': 0.018, 'grad_norm': 0.5274271368980408, 'learning_rate': 7.993605115907273e-06, 'epoch': 1.84}\n",
      "{'loss': 0.013, 'grad_norm': 0.3056090772151947, 'learning_rate': 7.913669064748202e-06, 'epoch': 1.84}\n",
      "{'loss': 0.0349, 'grad_norm': 0.40134018659591675, 'learning_rate': 7.833733013589129e-06, 'epoch': 1.84}\n",
      "{'loss': 0.0188, 'grad_norm': 0.38410162925720215, 'learning_rate': 7.753796962430056e-06, 'epoch': 1.84}\n",
      "{'loss': 0.0139, 'grad_norm': 0.37682807445526123, 'learning_rate': 7.673860911270982e-06, 'epoch': 1.85}\n",
      "{'loss': 0.0197, 'grad_norm': 0.39813917875289917, 'learning_rate': 7.59392486011191e-06, 'epoch': 1.85}\n",
      "{'loss': 0.0359, 'grad_norm': 0.9785628914833069, 'learning_rate': 7.513988808952838e-06, 'epoch': 1.85}\n",
      "{'loss': 0.0137, 'grad_norm': 0.3153132498264313, 'learning_rate': 7.434052757793765e-06, 'epoch': 1.85}\n",
      "{'loss': 0.0225, 'grad_norm': 0.41238653659820557, 'learning_rate': 7.354116706634692e-06, 'epoch': 1.85}\n",
      "{'loss': 0.0121, 'grad_norm': 0.3431166112422943, 'learning_rate': 7.2741806554756196e-06, 'epoch': 1.85}\n",
      "{'loss': 0.0137, 'grad_norm': 0.35856226086616516, 'learning_rate': 7.1942446043165465e-06, 'epoch': 1.86}\n",
      "{'loss': 0.01, 'grad_norm': 0.31636694073677063, 'learning_rate': 7.114308553157474e-06, 'epoch': 1.86}\n",
      "{'loss': 0.0389, 'grad_norm': 0.6311793923377991, 'learning_rate': 7.034372501998401e-06, 'epoch': 1.86}\n",
      "{'loss': 0.0197, 'grad_norm': 0.3199259340763092, 'learning_rate': 6.954436450839329e-06, 'epoch': 1.86}\n",
      "{'loss': 0.0364, 'grad_norm': 0.5528075695037842, 'learning_rate': 6.874500399680256e-06, 'epoch': 1.86}\n",
      "{'loss': 0.0154, 'grad_norm': 0.2276880294084549, 'learning_rate': 6.794564348521184e-06, 'epoch': 1.86}\n",
      "{'loss': 0.0115, 'grad_norm': 0.5411592125892639, 'learning_rate': 6.7146282973621105e-06, 'epoch': 1.87}\n",
      "{'loss': 0.0234, 'grad_norm': 0.3989885151386261, 'learning_rate': 6.634692246203037e-06, 'epoch': 1.87}\n",
      "{'loss': 0.0194, 'grad_norm': 0.3072962462902069, 'learning_rate': 6.554756195043965e-06, 'epoch': 1.87}\n",
      "{'loss': 0.0131, 'grad_norm': 0.35285425186157227, 'learning_rate': 6.474820143884892e-06, 'epoch': 1.87}\n",
      "{'loss': 0.025, 'grad_norm': 0.6109555959701538, 'learning_rate': 6.39488409272582e-06, 'epoch': 1.87}\n",
      "{'loss': 0.0183, 'grad_norm': 0.32259252667427063, 'learning_rate': 6.314948041566747e-06, 'epoch': 1.87}\n",
      "{'loss': 0.0364, 'grad_norm': 1.5037474632263184, 'learning_rate': 6.2350119904076745e-06, 'epoch': 1.88}\n",
      "{'loss': 0.0123, 'grad_norm': 0.4595261514186859, 'learning_rate': 6.1550759392486014e-06, 'epoch': 1.88}\n",
      "{'loss': 0.014, 'grad_norm': 0.34703779220581055, 'learning_rate': 6.075139888089529e-06, 'epoch': 1.88}\n",
      "{'loss': 0.0352, 'grad_norm': 0.6177451014518738, 'learning_rate': 5.995203836930456e-06, 'epoch': 1.88}\n",
      "{'loss': 0.0218, 'grad_norm': 0.345645546913147, 'learning_rate': 5.915267785771383e-06, 'epoch': 1.88}\n",
      "{'loss': 0.0359, 'grad_norm': 0.5887640118598938, 'learning_rate': 5.835331734612311e-06, 'epoch': 1.88}\n",
      "{'loss': 0.018, 'grad_norm': 0.299646258354187, 'learning_rate': 5.755395683453238e-06, 'epoch': 1.88}\n",
      "{'loss': 0.017, 'grad_norm': 0.6270328164100647, 'learning_rate': 5.6754596322941655e-06, 'epoch': 1.89}\n",
      "{'loss': 0.0198, 'grad_norm': 0.37888774275779724, 'learning_rate': 5.5955235811350915e-06, 'epoch': 1.89}\n",
      "{'loss': 0.0225, 'grad_norm': 0.33242473006248474, 'learning_rate': 5.515587529976019e-06, 'epoch': 1.89}\n",
      "{'loss': 0.0126, 'grad_norm': 0.25536540150642395, 'learning_rate': 5.435651478816946e-06, 'epoch': 1.89}\n",
      "{'loss': 0.0162, 'grad_norm': 0.4093148708343506, 'learning_rate': 5.355715427657874e-06, 'epoch': 1.89}\n",
      "{'loss': 0.0202, 'grad_norm': 0.5779305696487427, 'learning_rate': 5.275779376498801e-06, 'epoch': 1.89}\n",
      "{'loss': 0.0157, 'grad_norm': 0.471883624792099, 'learning_rate': 5.195843325339729e-06, 'epoch': 1.9}\n",
      "{'loss': 0.0163, 'grad_norm': 0.5316861867904663, 'learning_rate': 5.1159072741806555e-06, 'epoch': 1.9}\n",
      "{'loss': 0.0129, 'grad_norm': 0.3383062481880188, 'learning_rate': 5.035971223021583e-06, 'epoch': 1.9}\n",
      "{'loss': 0.057, 'grad_norm': 0.5957686901092529, 'learning_rate': 4.95603517186251e-06, 'epoch': 1.9}\n",
      "{'loss': 0.023, 'grad_norm': 0.4845460057258606, 'learning_rate': 4.876099120703437e-06, 'epoch': 1.9}\n",
      "{'loss': 0.013, 'grad_norm': 0.3467510938644409, 'learning_rate': 4.796163069544365e-06, 'epoch': 1.9}\n",
      "{'loss': 0.0348, 'grad_norm': 0.51773601770401, 'learning_rate': 4.716227018385292e-06, 'epoch': 1.91}\n",
      "{'loss': 0.0236, 'grad_norm': 0.46414825320243835, 'learning_rate': 4.6362909672262196e-06, 'epoch': 1.91}\n",
      "{'loss': 0.0241, 'grad_norm': 0.5193561911582947, 'learning_rate': 4.5563549160671465e-06, 'epoch': 1.91}\n",
      "{'loss': 0.0204, 'grad_norm': 0.5488902926445007, 'learning_rate': 4.476418864908074e-06, 'epoch': 1.91}\n",
      "{'loss': 0.0293, 'grad_norm': 1.1009782552719116, 'learning_rate': 4.396482813749001e-06, 'epoch': 1.91}\n",
      "{'loss': 0.0294, 'grad_norm': 0.5491836667060852, 'learning_rate': 4.316546762589929e-06, 'epoch': 1.91}\n",
      "{'loss': 0.0168, 'grad_norm': 0.35002025961875916, 'learning_rate': 4.236610711430856e-06, 'epoch': 1.92}\n",
      "{'loss': 0.0339, 'grad_norm': 0.668847382068634, 'learning_rate': 4.156674660271783e-06, 'epoch': 1.92}\n",
      "{'loss': 0.0215, 'grad_norm': 0.7878102660179138, 'learning_rate': 4.0767386091127105e-06, 'epoch': 1.92}\n",
      "{'loss': 0.0205, 'grad_norm': 0.37651652097702026, 'learning_rate': 3.9968025579536366e-06, 'epoch': 1.92}\n",
      "{'loss': 0.0216, 'grad_norm': 0.34461668133735657, 'learning_rate': 3.916866506794564e-06, 'epoch': 1.92}\n",
      "{'loss': 0.0141, 'grad_norm': 0.3498556911945343, 'learning_rate': 3.836930455635491e-06, 'epoch': 1.92}\n",
      "{'loss': 0.0179, 'grad_norm': 0.221690371632576, 'learning_rate': 3.756994404476419e-06, 'epoch': 1.92}\n",
      "{'loss': 0.0246, 'grad_norm': 0.5161760449409485, 'learning_rate': 3.677058353317346e-06, 'epoch': 1.93}\n",
      "{'loss': 0.025, 'grad_norm': 0.3859441578388214, 'learning_rate': 3.5971223021582732e-06, 'epoch': 1.93}\n",
      "{'loss': 0.0156, 'grad_norm': 0.39939990639686584, 'learning_rate': 3.5171862509992006e-06, 'epoch': 1.93}\n",
      "{'loss': 0.0135, 'grad_norm': 0.3373832702636719, 'learning_rate': 3.437250199840128e-06, 'epoch': 1.93}\n",
      "{'loss': 0.0315, 'grad_norm': 0.6138628721237183, 'learning_rate': 3.3573141486810552e-06, 'epoch': 1.93}\n",
      "{'loss': 0.0134, 'grad_norm': 0.4322439730167389, 'learning_rate': 3.2773780975219826e-06, 'epoch': 1.93}\n",
      "{'loss': 0.0274, 'grad_norm': 0.3788922429084778, 'learning_rate': 3.19744204636291e-06, 'epoch': 1.94}\n",
      "{'loss': 0.0191, 'grad_norm': 0.49671512842178345, 'learning_rate': 3.1175059952038373e-06, 'epoch': 1.94}\n",
      "{'loss': 0.018, 'grad_norm': 0.4977487325668335, 'learning_rate': 3.0375699440447646e-06, 'epoch': 1.94}\n",
      "{'loss': 0.0163, 'grad_norm': 0.3860931992530823, 'learning_rate': 2.9576338928856915e-06, 'epoch': 1.94}\n",
      "{'loss': 0.0165, 'grad_norm': 0.3925480246543884, 'learning_rate': 2.877697841726619e-06, 'epoch': 1.94}\n",
      "{'loss': 0.0204, 'grad_norm': 0.3979018032550812, 'learning_rate': 2.7977617905675458e-06, 'epoch': 1.94}\n",
      "{'loss': 0.0221, 'grad_norm': 0.5110049247741699, 'learning_rate': 2.717825739408473e-06, 'epoch': 1.95}\n",
      "{'loss': 0.0299, 'grad_norm': 2.076345920562744, 'learning_rate': 2.6378896882494004e-06, 'epoch': 1.95}\n",
      "{'loss': 0.0241, 'grad_norm': 0.8802176117897034, 'learning_rate': 2.5579536370903278e-06, 'epoch': 1.95}\n",
      "{'loss': 0.0146, 'grad_norm': 0.3281089663505554, 'learning_rate': 2.478017585931255e-06, 'epoch': 1.95}\n",
      "{'loss': 0.0305, 'grad_norm': 0.5268698930740356, 'learning_rate': 2.3980815347721824e-06, 'epoch': 1.95}\n",
      "{'loss': 0.0266, 'grad_norm': 0.3877052366733551, 'learning_rate': 2.3181454836131098e-06, 'epoch': 1.95}\n",
      "{'loss': 0.033, 'grad_norm': 0.5699260830879211, 'learning_rate': 2.238209432454037e-06, 'epoch': 1.96}\n",
      "{'loss': 0.0181, 'grad_norm': 0.509240984916687, 'learning_rate': 2.1582733812949645e-06, 'epoch': 1.96}\n",
      "{'loss': 0.0191, 'grad_norm': 0.4012039601802826, 'learning_rate': 2.0783373301358914e-06, 'epoch': 1.96}\n",
      "{'loss': 0.0206, 'grad_norm': 0.37686169147491455, 'learning_rate': 1.9984012789768183e-06, 'epoch': 1.96}\n",
      "{'loss': 0.0249, 'grad_norm': 0.6216253638267517, 'learning_rate': 1.9184652278177456e-06, 'epoch': 1.96}\n",
      "{'loss': 0.0202, 'grad_norm': 0.36925047636032104, 'learning_rate': 1.838529176658673e-06, 'epoch': 1.96}\n",
      "{'loss': 0.0154, 'grad_norm': 0.47336071729660034, 'learning_rate': 1.7585931254996003e-06, 'epoch': 1.96}\n",
      "{'loss': 0.0154, 'grad_norm': 0.4040926396846771, 'learning_rate': 1.6786570743405276e-06, 'epoch': 1.97}\n",
      "{'loss': 0.0198, 'grad_norm': 0.3583311140537262, 'learning_rate': 1.598721023181455e-06, 'epoch': 1.97}\n",
      "{'loss': 0.0201, 'grad_norm': 0.6956422328948975, 'learning_rate': 1.5187849720223823e-06, 'epoch': 1.97}\n",
      "{'loss': 0.0378, 'grad_norm': 0.6471182703971863, 'learning_rate': 1.4388489208633094e-06, 'epoch': 1.97}\n",
      "{'loss': 0.0267, 'grad_norm': 0.22978228330612183, 'learning_rate': 1.3589128697042365e-06, 'epoch': 1.97}\n",
      "{'loss': 0.0268, 'grad_norm': 0.4142908751964569, 'learning_rate': 1.2789768185451639e-06, 'epoch': 1.97}\n",
      "{'loss': 0.012, 'grad_norm': 0.42063620686531067, 'learning_rate': 1.1990407673860912e-06, 'epoch': 1.98}\n",
      "{'loss': 0.0247, 'grad_norm': 0.5137540102005005, 'learning_rate': 1.1191047162270186e-06, 'epoch': 1.98}\n",
      "{'loss': 0.0144, 'grad_norm': 0.34538134932518005, 'learning_rate': 1.0391686650679457e-06, 'epoch': 1.98}\n",
      "{'loss': 0.0217, 'grad_norm': 0.7485714554786682, 'learning_rate': 9.592326139088728e-07, 'epoch': 1.98}\n",
      "{'loss': 0.0084, 'grad_norm': 0.4162525236606598, 'learning_rate': 8.792965627498001e-07, 'epoch': 1.98}\n",
      "{'loss': 0.0199, 'grad_norm': 0.21268361806869507, 'learning_rate': 7.993605115907275e-07, 'epoch': 1.98}\n",
      "{'loss': 0.0111, 'grad_norm': 0.24869321286678314, 'learning_rate': 7.194244604316547e-07, 'epoch': 1.99}\n",
      "{'loss': 0.0176, 'grad_norm': 0.46918749809265137, 'learning_rate': 6.394884092725819e-07, 'epoch': 1.99}\n",
      "{'loss': 0.0216, 'grad_norm': 0.3577713370323181, 'learning_rate': 5.595523581135093e-07, 'epoch': 1.99}\n",
      "{'loss': 0.0266, 'grad_norm': 0.322237104177475, 'learning_rate': 4.796163069544364e-07, 'epoch': 1.99}\n",
      "{'loss': 0.0201, 'grad_norm': 0.428237646818161, 'learning_rate': 3.9968025579536374e-07, 'epoch': 1.99}\n",
      "{'loss': 0.0222, 'grad_norm': 0.45534977316856384, 'learning_rate': 3.1974420463629097e-07, 'epoch': 1.99}\n",
      "{'loss': 0.0177, 'grad_norm': 0.3858233690261841, 'learning_rate': 2.398081534772182e-07, 'epoch': 2.0}\n",
      "{'loss': 0.0191, 'grad_norm': 0.5180837512016296, 'learning_rate': 1.5987210231814549e-07, 'epoch': 2.0}\n",
      "{'loss': 0.0293, 'grad_norm': 0.5294519066810608, 'learning_rate': 7.993605115907274e-08, 'epoch': 2.0}\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "Some non-default generation parameters are set in the model config. These should go into a GenerationConfig file (https://huggingface.co/docs/transformers/generation_strategies#save-a-custom-decoding-strategy-with-your-model) instead. This warning will be raised to an exception in v4.41.\n",
      "Non-default generation parameters: {'num_beams': 4, 'no_repeat_ngram_size': 3, 'forced_eos_token_id': 2}\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "{'loss': 0.0181, 'grad_norm': 0.8165919780731201, 'learning_rate': 0.0, 'epoch': 2.0}\n",
      "{'train_runtime': 900.6897, 'train_samples_per_second': 22.207, 'train_steps_per_second': 2.778, 'train_loss': 0.04722708594805891, 'epoch': 2.0}\n"
     ]
    }
   ],
   "source": [
    "training_args = TrainingArguments(\n",
    "    output_dir='./results',         # output directory 结果输出地址\n",
    "    num_train_epochs=2,          # total # of training epochs 训练总批次\n",
    "    per_device_train_batch_size=8,  # batch size per device during training 训练批大小\n",
    "    per_device_eval_batch_size=8,   # batch size for evaluation 评估批大小\n",
    "    logging_dir='./logs/rn_log',    # directory for storing logs 日志存储位置\n",
    "    learning_rate=1e-4,             # 学习率\n",
    "    save_steps=False,# 不保存检查点\n",
    "    logging_steps=2\n",
    ")\n",
    "\n",
    "trainer = Trainer(\n",
    "    model=model,\n",
    "    args=training_args,\n",
    "    train_dataset=train_data,\n",
    "    eval_dataset=valid_data,\n",
    ")\n",
    "trainer.train()\n",
    "## 模型保存\n",
    "model.save_pretrained(\"./models/change2/\")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [],
   "source": [
    "new_model = BartForConditionalGeneration.from_pretrained(\"./models/change2/\")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "[{'generated_text': '桂林市是世界闻名。 ,它有悠久的桂林文化。'}]\n"
     ]
    }
   ],
   "source": [
    "text = '桂林市是世界闻名<mask> ，它有悠久的<mask>'\n",
    "text2text_generator = Text2TextGenerationPipeline(new_model, tokenizer)\n",
    "print(text2text_generator(text, max_length=50, do_sample=False))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "[{'generated_text': '电子学习工具有许昌,比如笔记本电脑、触控板、平板等等。'}]\n"
     ]
    }
   ],
   "source": [
    "text = \"电子学习工具有许昌，比如笔记本电脑、触控版、平板等等。\"\n",
    "text2text_generator = Text2TextGenerationPipeline(new_model, tokenizer)\n",
    "print(text2text_generator(text, max_length=100, do_sample=False))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "[{'generated_text': '中国的首都是冠军'}]\n"
     ]
    }
   ],
   "source": [
    "text =  \"中国的首都是杯京\"\n",
    "text2text_generator = Text2TextGenerationPipeline(new_model, tokenizer)\n",
    "print(text2text_generator(text, max_length=100, do_sample=False))"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "env_DeepLearning_PyTorch-1.13.1",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.10.13 | packaged by Anaconda, Inc. | (main, Sep 11 2023, 13:24:38) [MSC v.1916 64 bit (AMD64)]"
  },
  "orig_nbformat": 4,
  "vscode": {
   "interpreter": {
    "hash": "20ff74ba87f01ad54d10aa54b89201a0a9136d24594b8998b4fa90e9a77eabca"
   }
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}
